1. 데이터 마이닝

데이터 마이닝
방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것

 

데이터 마이닝 종류
지도학습 - 정답이 있는 데이터
- 독립변수에 따른 종속변수 있음
- 회귀(연속), 분류(범주)
비지도 학습 - 정답이 없는 데이터
- 독립변수에 따른 종속변수 없음
- 군집, 연관, 차원축소

 

데이터 분할
홀드아웃 학습 데이터 / 평가 데이터
K-FOLD 교차검증 k개의 집단으로 구분한 뒤 k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용하여 k개의 모델 구축
LOOCV n-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로
붓스트랩 - 원본 데이터 크기만큼 복원추출
- 특정 데이터가 한 번도 선정되지 않을 확률: 약 36.8%
오버샘플링 특정 범주가 적은 데이터의 데이터 셋 크기를 확장
언더샘플링 특정 범주가 많은 데이터의 데이터 셋 크기를 축소

2. 분류 분석

로지스틱 회귀분석
독립변수(연속형), 종속변수(범주형) → 성공/실패 확률 예측
오즈 - 성공확률 / 실패확률
- 한계: 음수를 가질 수 없음. 비대칭 그래프
P / (1-P)
로짓변환 - 오즈에 로그값을 취함
→ 범위 무한대 확장, 성공확률 0.5 기준 대칭 그래프
log P / (1-P)
시그모이드 함수 - 구하고자 하는 확률값(0~1)
- 로짓 함수의 역함수
 

 

의사결정나무
특정 분리 규칙에 따라 몇 개의 소집단으로 분류 
특징 - 직관적
- 쉬운 전처리
- 이산형, 연속형 모두 적용 가능
- 정규화 필요X
- 선형성, 정규성 가정 필요X
- 이상값에 민감하지 않음
단점 - 독립변수들 간 중요도 판단이 어려움
- 분류 경계선 근처 자료 오차가 큼
- 과적합 발생 가능성 높음
과적합 해소 정지규칙, 가지치기
분류트리
(이산형)
- 카이제곱 통계량
- 지니 지수: 1 - A² - B²
- 엔트로피 지수: - A log (A) - B log (B)
회귀트리
(연속형)
- ANOVA F-통계량
- 분산감소량

 

앙상블
다수의 모형을 결합하여 새로운 모형을 만듦
배깅 - 여러 개의 붓스트랩을 집계 → 보팅(다수결 투표)
부스팅 - 이전 분류기의 잘못된 분류 데이터에 가중치를 주어 점진적으로 붓스트랩 구성
- 병렬 처리가 불가
- 에이다부스팅, Gradient Boost, XGBoost, light GBM 등
랜덤 포레스트 - 배깅 + 의사결정나무
- 표본 추출 과정이 한 번 더 반복되어 표본을 대상으로 최적의 분할을 실시함
- 이상치에 강함
스태킹 - 분류기 간의 결과를 다시 훈련용 데이터로 사용하여 최종모형(메타모델)을 구축
- 높은 복잡도, 오랜 학습 시간, 결과 해석 어려움

 

인공신경망
인간의 뇌를 모방한 퍼셉트론 활용 추론 모델
장점 - 잡음에 민감하지 않음
- 비선형적 문제 분석에 유용
- 스스로 가중치를 학습
단점 - 해석이 어려움
- 하이퍼파라미터(은닉층 수, 노드 수) 설정 어려움
- 모형이 복잡할 경우 학습 오래 걸림
- 추정 가중치의 신뢰도 낮음
구조 단층 입력층(데이터 입력) - 출력층(데이터 출력: 0 또는 1)
다층 입력층 - 은닉층(가중치 계산 → 활성함수 적용) - 출력층
활성함수 은닉층 - 시그모이드 함수: 0~1 (기울기 소실 문제)
- 하이퍼볼릭 탄젠트 함수: -1 ~ 1 (기울기 소실 문제 지연)
- ReLU 함수: max(0, 입력값) (기울기 소실문제 극복)
출력층 - 시그모이드 함수: 이진분류(0~1)
- 소프트맥스 함수: 다중분류(확률 총합이 1)
기본 함수 - 역전파 알고리즘에 활용 불가
- step: 0 또는 1 
- sign: -1 또는 1
학습 방법
(가중치 결정)
순전파 입력층 → 출력층
역전파 출력층 → 입력층 (가중치 조정)
딥러닝 DNN 은닉층 2개 이상 인공신경망
CNN 이미지 패턴 찾는 인공신경망
RNN 순환 구조를 갖는 인공신경망
오토인코더 비지도학습 인공신경망

 

나이브 베이즈
베이즈 정리 기반 모델
특징 - 모든 특징 변수가 서로 독립적이라는 가정
- 과거의 경험을 활용하는 귀납적 추론 방법

 

K-NN 알고리즘
거리 기반으로 이웃에 더 많은 데이터가 포함되어 있는 범주로 분류
하이퍼파라미터: K값
Lazy Model

 

서포트벡터머신
마진이 최대가 되는 초평면을 찾아 이진 분류
구성 - 하이퍼플레인(초평면): 데이터 구분 경계. 가중치벡터와 편향으로 결정
- 서포트벡터: 초평면과 가장 근접한 샘플
- 마진: 초명면과 서포트벡터 사이의 거리
- 커널함수: 저차원 데이터를 고차원 데이터로 변경하는 함수
유형 - 소프트마진분류: 마진 내 어느 정도 오류 허용
- 하드마진분류: 오류 비허용

 

오분류표
정분류율(정확도) 전체 중 올바르게 예측한 비율 (TP+TN) / 전체
오분류율 전체 중 잘못 예측한 비율 (FP+FN) / 전체
민감도(재현율) 실제 T 중 예측한 T TP / (TP + FN)
특이도 실제 N 중 예측한 N TN / (TN+FP)
정밀도 예측 T 중 실제 T TP / (TP + FP)
거짓 긍정률 실제 N 중 예측 P FP / (FP+TN)
F1 스코어 (2 * 민감도 * 정밀도) / (민감도 + 정밀도)  

 

평가지표
ROC 커브 - X축: FPR(1-특이도)
- Y축: TPR(민감도)
- 0.5(안좋음) ~ 1(좋음)
이익도표 임의로 나눈 등급별 성능 판단

3. 군집 분석

군집분석
자료들 사이의 유사성을 측정하고, 유사한 자료들끼리 군집을 만듦

 

거리 측도
연속형 유클리디안 가장 짧은 거리 √(a1-b1)²+*(a2-b2)²
맨하튼 가로지르지 않고 따라간 거리 |a1-b1| + |a2-b2|
체비셰프 변수 간 거리 차이 중 최댓값 max(|a1-b1|, |a2-b2|)
범주형 자카드 합집합 교집합 비율  
코사인 코사인 각도  

 

계층적 군집분석 - 군집 간 거리
단일 최단연결법. 가장 가까운 데이터로 계산
완전 최장연결법. 가장 먼 데이터로 계산
평균 군집 내 평균 데이터로 계산
중심 군집 중심점 사이 거리
와드 군집 내 편차 제곱합이 최소

 

비계층적 군집분석
k-means 군집 - k값 설정
- seed: 임의로 설정된 k개의 데이터
- 단순하고 빠름
- k값 설정 어려움
- 해석 어려움
- 안정 보장, 최적 비보장
- 이상값에 민감(평균값 대신 중앙값, k-medoids) 
DBSCAN - 밀도 기반 군집분석
- 초기 군집 수 설정 x
- 노이즈와 이상치에 강함
EM 알고리즘 - 분포 기반
- 기댓값 최대화
자기조직화지도(SOM) - 인공신경만 기반
- 차원 축소: 시각적 이해 쉬움
- 완전연결
- 승자 노드
- 순전파 방식: 매우 빠름
- 패턴 발견 및 이미지 분석 우수
- 초기 학습률 및 가중치에 많은 영향
- 이상적 노드 개수 결정 어려움

 

군집분석 평가 지표
실루엣 계수 같은 군집 간 가깝고 먼 정도(-1~1)

4. 연관분석

연관분석
구매 패턴 분석 - 조건에 따른 결과의 형태로 해석
특징 - 결과가 단순하고 분명함
- 계산이 간단함
- 목적변수가 없음
- apriori 알고리즘
단점 - 품목 세분화에 어려움이 있음
- 품목 수 증가가 기하급수적인 계산량 증가를 초래함
- 거래가 발생하지 않은 품목은 분석이 불가함

 

측도
지지도 a와 b 두 품목이 동시에 포함된 거래의 비율 동시 거래 / 전체 거래
신뢰도 a가 구매됐을 때 b가 구매될 확률(a → b) 동시 거래 / a 거래
향상도 a가 없을 때 b가 구매될 확률 대시 a가 있을 때 b가 구매될 확률 (동시 거래 * 전체 거래) / (a 거래 * b 거래)

 

+ Recent posts