[ADSP] 3과목_정형 데이터 마이닝 :: 코딩용

[ADSP] 3과목_정형 데이터 마이닝

eu_ak 2025. 11. 2. 07:43

2025. 11. 2. 07:43

1. 데이터 마이닝

데이터 마이닝

방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것

데이터 마이닝 종류
지도학습	- 정답이 있는 데이터 - 독립변수에 따른 종속변수 있음 - 회귀(연속), 분류(범주)
비지도 학습	- 정답이 없는 데이터 - 독립변수에 따른 종속변수 없음 - 군집, 연관, 차원축소

데이터 분할
홀드아웃	학습 데이터 / 평가 데이터
K-FOLD 교차검증	k개의 집단으로 구분한 뒤 k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용하여 k개의 모델 구축
LOOCV	n-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로
붓스트랩	- 원본 데이터 크기만큼 복원추출 - 특정 데이터가 한 번도 선정되지 않을 확률: 약 36.8%
오버샘플링	특정 범주가 적은 데이터의 데이터 셋 크기를 확장
언더샘플링	특정 범주가 많은 데이터의 데이터 셋 크기를 축소

2. 분류 분석

로지스틱 회귀분석
독립변수(연속형), 종속변수(범주형) → 성공/실패 확률 예측
오즈	- 성공확률 / 실패확률 - 한계: 음수를 가질 수 없음. 비대칭 그래프	P / (1-P)
로짓변환	- 오즈에 로그값을 취함 → 범위 무한대 확장, 성공확률 0.5 기준 대칭 그래프	log P / (1-P)
시그모이드 함수	- 구하고자 하는 확률값(0~1) - 로짓 함수의 역함수

의사결정나무
특정 분리 규칙에 따라 몇 개의 소집단으로 분류
특징	- 직관적 - 쉬운 전처리 - 이산형, 연속형 모두 적용 가능 - 정규화 필요X - 선형성, 정규성 가정 필요X - 이상값에 민감하지 않음
단점	- 독립변수들 간 중요도 판단이 어려움 - 분류 경계선 근처 자료 오차가 큼 - 과적합 발생 가능성 높음
과적합 해소	정지규칙, 가지치기
분류트리 (이산형)	- 카이제곱 통계량 - 지니 지수: 1 - A² - B² - 엔트로피 지수: - A log (A) - B log (B)
회귀트리 (연속형)	- ANOVA F-통계량 - 분산감소량

앙상블
다수의 모형을 결합하여 새로운 모형을 만듦
배깅	- 여러 개의 붓스트랩을 집계 → 보팅(다수결 투표)
부스팅	- 이전 분류기의 잘못된 분류 데이터에 가중치를 주어 점진적으로 붓스트랩 구성 - 병렬 처리가 불가 - 에이다부스팅, Gradient Boost, XGBoost, light GBM 등
랜덤 포레스트	- 배깅 + 의사결정나무 - 표본 추출 과정이 한 번 더 반복되어 표본을 대상으로 최적의 분할을 실시함 - 이상치에 강함
스태킹	- 분류기 간의 결과를 다시 훈련용 데이터로 사용하여 최종모형(메타모델)을 구축 - 높은 복잡도, 오랜 학습 시간, 결과 해석 어려움

인공신경망
인간의 뇌를 모방한 퍼셉트론 활용 추론 모델
장점	- 잡음에 민감하지 않음 - 비선형적 문제 분석에 유용 - 스스로 가중치를 학습
단점	- 해석이 어려움 - 하이퍼파라미터(은닉층 수, 노드 수) 설정 어려움 - 모형이 복잡할 경우 학습 오래 걸림 - 추정 가중치의 신뢰도 낮음
구조	단층	입력층(데이터 입력) - 출력층(데이터 출력: 0 또는 1)
구조	다층	입력층 - 은닉층(가중치 계산 → 활성함수 적용) - 출력층
활성함수	은닉층	- 시그모이드 함수: 0~1 (기울기 소실 문제) - 하이퍼볼릭 탄젠트 함수: -1 ~ 1 (기울기 소실 문제 지연) - ReLU 함수: max(0, 입력값) (기울기 소실문제 극복)
	출력층	- 시그모이드 함수: 이진분류(0~1) - 소프트맥스 함수: 다중분류(확률 총합이 1)
	기본 함수	- 역전파 알고리즘에 활용 불가 - step: 0 또는 1 - sign: -1 또는 1
학습 방법 (가중치 결정)	순전파	입력층 → 출력층
학습 방법 (가중치 결정)	역전파	출력층 → 입력층 (가중치 조정)
딥러닝	DNN	은닉층 2개 이상 인공신경망
	CNN	이미지 패턴 찾는 인공신경망
	RNN	순환 구조를 갖는 인공신경망
	오토인코더	비지도학습 인공신경망

나이브 베이즈
베이즈 정리 기반 모델
특징	- 모든 특징 변수가 서로 독립적이라는 가정 - 과거의 경험을 활용하는 귀납적 추론 방법

K-NN 알고리즘
거리 기반으로 이웃에 더 많은 데이터가 포함되어 있는 범주로 분류
하이퍼파라미터: K값
Lazy Model

서포트벡터머신
마진이 최대가 되는 초평면을 찾아 이진 분류
구성	- 하이퍼플레인(초평면): 데이터 구분 경계. 가중치벡터와 편향으로 결정 - 서포트벡터: 초평면과 가장 근접한 샘플 - 마진: 초명면과 서포트벡터 사이의 거리 - 커널함수: 저차원 데이터를 고차원 데이터로 변경하는 함수
유형	- 소프트마진분류: 마진 내 어느 정도 오류 허용 - 하드마진분류: 오류 비허용

오분류표
정분류율(정확도)	전체 중 올바르게 예측한 비율	(TP+TN) / 전체
오분류율	전체 중 잘못 예측한 비율	(FP+FN) / 전체
민감도(재현율)	실제 T 중 예측한 T	TP / (TP + FN)
특이도	실제 N 중 예측한 N	TN / (TN+FP)
정밀도	예측 T 중 실제 T	TP / (TP + FP)
거짓 긍정률	실제 N 중 예측 P	FP / (FP+TN)
F1 스코어	(2 * 민감도 * 정밀도) / (민감도 + 정밀도)

평가지표
ROC 커브	- X축: FPR(1-특이도) - Y축: TPR(민감도) - 0.5(안좋음) ~ 1(좋음)
이익도표	임의로 나눈 등급별 성능 판단

3. 군집 분석

군집분석

자료들 사이의 유사성을 측정하고, 유사한 자료들끼리 군집을 만듦

거리 측도
연속형	유클리디안	가장 짧은 거리	√(a1-b1)²+*(a2-b2)²
	맨하튼	가로지르지 않고 따라간 거리	\|a1-b1\| + \|a2-b2\|
	체비셰프	변수 간 거리 차이 중 최댓값	max(\|a1-b1\|, \|a2-b2\|)
범주형	자카드	합집합 교집합 비율
범주형	코사인	코사인 각도

계층적 군집분석 - 군집 간 거리
단일	최단연결법. 가장 가까운 데이터로 계산
완전	최장연결법. 가장 먼 데이터로 계산
평균	군집 내 평균 데이터로 계산
중심	군집 중심점 사이 거리
와드	군집 내 편차 제곱합이 최소

비계층적 군집분석
k-means 군집	- k값 설정 - seed: 임의로 설정된 k개의 데이터 - 단순하고 빠름 - k값 설정 어려움 - 해석 어려움 - 안정 보장, 최적 비보장 - 이상값에 민감(평균값 대신 중앙값, k-medoids)
DBSCAN	- 밀도 기반 군집분석 - 초기 군집 수 설정 x - 노이즈와 이상치에 강함
EM 알고리즘	- 분포 기반 - 기댓값 최대화
자기조직화지도(SOM)	- 인공신경만 기반 - 차원 축소: 시각적 이해 쉬움 - 완전연결 - 승자 노드 - 순전파 방식: 매우 빠름 - 패턴 발견 및 이미지 분석 우수 - 초기 학습률 및 가중치에 많은 영향 - 이상적 노드 개수 결정 어려움

군집분석 평가 지표
실루엣 계수	같은 군집 간 가깝고 먼 정도(-1~1)

4. 연관분석

연관분석
구매 패턴 분석 - 조건에 따른 결과의 형태로 해석
특징	- 결과가 단순하고 분명함 - 계산이 간단함 - 목적변수가 없음 - apriori 알고리즘
단점	- 품목 세분화에 어려움이 있음 - 품목 수 증가가 기하급수적인 계산량 증가를 초래함 - 거래가 발생하지 않은 품목은 분석이 불가함

측도
지지도	a와 b 두 품목이 동시에 포함된 거래의 비율	동시 거래 / 전체 거래
신뢰도	a가 구매됐을 때 b가 구매될 확률(a → b)	동시 거래 / a 거래
향상도	a가 없을 때 b가 구매될 확률 대시 a가 있을 때 b가 구매될 확률	(동시 거래 * 전체 거래) / (a 거래 * b 거래)

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바