1. 데이터 마이닝
| 데이터 마이닝 |
| 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것 |
| 데이터 마이닝 종류 | |
| 지도학습 | - 정답이 있는 데이터 - 독립변수에 따른 종속변수 있음 - 회귀(연속), 분류(범주) |
| 비지도 학습 | - 정답이 없는 데이터 - 독립변수에 따른 종속변수 없음 - 군집, 연관, 차원축소 |
| 데이터 분할 | |
| 홀드아웃 | 학습 데이터 / 평가 데이터 |
| K-FOLD 교차검증 | k개의 집단으로 구분한 뒤 k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용하여 k개의 모델 구축 |
| LOOCV | n-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 |
| 붓스트랩 | - 원본 데이터 크기만큼 복원추출 - 특정 데이터가 한 번도 선정되지 않을 확률: 약 36.8% |
| 오버샘플링 | 특정 범주가 적은 데이터의 데이터 셋 크기를 확장 |
| 언더샘플링 | 특정 범주가 많은 데이터의 데이터 셋 크기를 축소 |
2. 분류 분석
| 로지스틱 회귀분석 |
||
| 독립변수(연속형), 종속변수(범주형) → 성공/실패 확률 예측 | ||
| 오즈 | - 성공확률 / 실패확률 - 한계: 음수를 가질 수 없음. 비대칭 그래프 |
P / (1-P) |
| 로짓변환 | - 오즈에 로그값을 취함 → 범위 무한대 확장, 성공확률 0.5 기준 대칭 그래프 |
log P / (1-P) |
| 시그모이드 함수 | - 구하고자 하는 확률값(0~1) - 로짓 함수의 역함수 |
|
| 의사결정나무 | |
| 특정 분리 규칙에 따라 몇 개의 소집단으로 분류 | |
| 특징 | - 직관적 - 쉬운 전처리 - 이산형, 연속형 모두 적용 가능 - 정규화 필요X - 선형성, 정규성 가정 필요X - 이상값에 민감하지 않음 |
| 단점 | - 독립변수들 간 중요도 판단이 어려움 - 분류 경계선 근처 자료 오차가 큼 - 과적합 발생 가능성 높음 |
| 과적합 해소 | 정지규칙, 가지치기 |
| 분류트리 (이산형) |
- 카이제곱 통계량 - 지니 지수: 1 - A² - B² - 엔트로피 지수: - A log (A) - B log (B) |
| 회귀트리 (연속형) |
- ANOVA F-통계량 - 분산감소량 |
| 앙상블 | |
| 다수의 모형을 결합하여 새로운 모형을 만듦 | |
| 배깅 | - 여러 개의 붓스트랩을 집계 → 보팅(다수결 투표) |
| 부스팅 | - 이전 분류기의 잘못된 분류 데이터에 가중치를 주어 점진적으로 붓스트랩 구성 - 병렬 처리가 불가 - 에이다부스팅, Gradient Boost, XGBoost, light GBM 등 |
| 랜덤 포레스트 | - 배깅 + 의사결정나무 - 표본 추출 과정이 한 번 더 반복되어 표본을 대상으로 최적의 분할을 실시함 - 이상치에 강함 |
| 스태킹 | - 분류기 간의 결과를 다시 훈련용 데이터로 사용하여 최종모형(메타모델)을 구축 - 높은 복잡도, 오랜 학습 시간, 결과 해석 어려움 |
| 인공신경망 | ||
| 인간의 뇌를 모방한 퍼셉트론 활용 추론 모델 | ||
| 장점 | - 잡음에 민감하지 않음 - 비선형적 문제 분석에 유용 - 스스로 가중치를 학습 |
|
| 단점 | - 해석이 어려움 - 하이퍼파라미터(은닉층 수, 노드 수) 설정 어려움 - 모형이 복잡할 경우 학습 오래 걸림 - 추정 가중치의 신뢰도 낮음 |
|
| 구조 | 단층 | 입력층(데이터 입력) - 출력층(데이터 출력: 0 또는 1) |
| 다층 | 입력층 - 은닉층(가중치 계산 → 활성함수 적용) - 출력층 | |
| 활성함수 | 은닉층 | - 시그모이드 함수: 0~1 (기울기 소실 문제) - 하이퍼볼릭 탄젠트 함수: -1 ~ 1 (기울기 소실 문제 지연) - ReLU 함수: max(0, 입력값) (기울기 소실문제 극복) |
| 출력층 | - 시그모이드 함수: 이진분류(0~1) - 소프트맥스 함수: 다중분류(확률 총합이 1) |
|
| 기본 함수 | - 역전파 알고리즘에 활용 불가 - step: 0 또는 1 - sign: -1 또는 1 |
|
| 학습 방법 (가중치 결정) |
순전파 | 입력층 → 출력층 |
| 역전파 | 출력층 → 입력층 (가중치 조정) | |
| 딥러닝 | DNN | 은닉층 2개 이상 인공신경망 |
| CNN | 이미지 패턴 찾는 인공신경망 | |
| RNN | 순환 구조를 갖는 인공신경망 | |
| 오토인코더 | 비지도학습 인공신경망 | |
| 나이브 베이즈 | |
| 베이즈 정리 기반 모델 | |
| 특징 | - 모든 특징 변수가 서로 독립적이라는 가정 - 과거의 경험을 활용하는 귀납적 추론 방법 |
![]() |
|
| K-NN 알고리즘 | |
| 거리 기반으로 이웃에 더 많은 데이터가 포함되어 있는 범주로 분류 | |
| 하이퍼파라미터: K값 | |
| Lazy Model |
| 서포트벡터머신 | |
| 마진이 최대가 되는 초평면을 찾아 이진 분류 | |
| 구성 | - 하이퍼플레인(초평면): 데이터 구분 경계. 가중치벡터와 편향으로 결정 - 서포트벡터: 초평면과 가장 근접한 샘플 - 마진: 초명면과 서포트벡터 사이의 거리 - 커널함수: 저차원 데이터를 고차원 데이터로 변경하는 함수 |
| 유형 | - 소프트마진분류: 마진 내 어느 정도 오류 허용 - 하드마진분류: 오류 비허용 |

| 오분류표 | ||
| 정분류율(정확도) | 전체 중 올바르게 예측한 비율 | (TP+TN) / 전체 |
| 오분류율 | 전체 중 잘못 예측한 비율 | (FP+FN) / 전체 |
| 민감도(재현율) | 실제 T 중 예측한 T | TP / (TP + FN) |
| 특이도 | 실제 N 중 예측한 N | TN / (TN+FP) |
| 정밀도 | 예측 T 중 실제 T | TP / (TP + FP) |
| 거짓 긍정률 | 실제 N 중 예측 P | FP / (FP+TN) |
| F1 스코어 | (2 * 민감도 * 정밀도) / (민감도 + 정밀도) | |
| 평가지표 | |
| ROC 커브 | - X축: FPR(1-특이도) - Y축: TPR(민감도) - 0.5(안좋음) ~ 1(좋음) |
| 이익도표 | 임의로 나눈 등급별 성능 판단 |
3. 군집 분석
| 군집분석 |
| 자료들 사이의 유사성을 측정하고, 유사한 자료들끼리 군집을 만듦 |
| 거리 측도 | |||
| 연속형 | 유클리디안 | 가장 짧은 거리 | √(a1-b1)²+*(a2-b2)² |
| 맨하튼 | 가로지르지 않고 따라간 거리 | |a1-b1| + |a2-b2| | |
| 체비셰프 | 변수 간 거리 차이 중 최댓값 | max(|a1-b1|, |a2-b2|) | |
| 범주형 | 자카드 | 합집합 교집합 비율 | |
| 코사인 | 코사인 각도 | ||
| 계층적 군집분석 - 군집 간 거리 | |
| 단일 | 최단연결법. 가장 가까운 데이터로 계산 |
| 완전 | 최장연결법. 가장 먼 데이터로 계산 |
| 평균 | 군집 내 평균 데이터로 계산 |
| 중심 | 군집 중심점 사이 거리 |
| 와드 | 군집 내 편차 제곱합이 최소 |
| 비계층적 군집분석 | |
| k-means 군집 | - k값 설정 - seed: 임의로 설정된 k개의 데이터 - 단순하고 빠름 - k값 설정 어려움 - 해석 어려움 - 안정 보장, 최적 비보장 - 이상값에 민감(평균값 대신 중앙값, k-medoids) |
| DBSCAN | - 밀도 기반 군집분석 - 초기 군집 수 설정 x - 노이즈와 이상치에 강함 |
| EM 알고리즘 | - 분포 기반 - 기댓값 최대화 |
| 자기조직화지도(SOM) | - 인공신경만 기반 - 차원 축소: 시각적 이해 쉬움 - 완전연결 - 승자 노드 - 순전파 방식: 매우 빠름 - 패턴 발견 및 이미지 분석 우수 - 초기 학습률 및 가중치에 많은 영향 - 이상적 노드 개수 결정 어려움 |
| 군집분석 평가 지표 | |
| 실루엣 계수 | 같은 군집 간 가깝고 먼 정도(-1~1) |
4. 연관분석
| 연관분석 | |
| 구매 패턴 분석 - 조건에 따른 결과의 형태로 해석 | |
| 특징 | - 결과가 단순하고 분명함 - 계산이 간단함 - 목적변수가 없음 - apriori 알고리즘 |
| 단점 | - 품목 세분화에 어려움이 있음 - 품목 수 증가가 기하급수적인 계산량 증가를 초래함 - 거래가 발생하지 않은 품목은 분석이 불가함 |
| 측도 | ||
| 지지도 | a와 b 두 품목이 동시에 포함된 거래의 비율 | 동시 거래 / 전체 거래 |
| 신뢰도 | a가 구매됐을 때 b가 구매될 확률(a → b) | 동시 거래 / a 거래 |
| 향상도 | a가 없을 때 b가 구매될 확률 대시 a가 있을 때 b가 구매될 확률 | (동시 거래 * 전체 거래) / (a 거래 * b 거래) |
