eu_ak
2025. 10. 27. 16:24
2025. 10. 27. 16:24
1. 데이터 마트
| 데이터 마트 |
| 데이터 웨어하우스로부터 주제별, 부서별로 데이터를 추출한 작은 규모의 데이터 웨어하우스 |
| 데이터 전처리 |
| 정제 |
결측값, 이상값 처리 |
| 변수 처리 |
변수 선택/변환, 차원 축소, 파생변수 생성 등 |
| 요약변수/파생변수 |
| 요약변수 |
기초적인 통계자료. 재활용성이 높음 (합계, 평균, 성별 등) |
| 파생변수 |
목적에 따른 특정 의미가 있는 변수. 논리적 타당성 필요 (A 매장의 월별 합계, 3월 남성 고객 구매 총액 등) |
2. 데이터 탐색
2.1. 탐색적 데이터 분석
| 탐색적 데이터 분석(EDA) |
| 데이터를 이해하고 의미를 찾기 위해 데이터를 시각화, 분석하는 것 |
2.2. 결측값
| 결측값 |
| 존재하지 않는 데이터. NA/NULL 등으로 표현 |
| 결측값 처리 |
단순 대치법 (완전분석법) |
데이터 삭제 (결측값이 많은 경우 데이터 손실 발생) |
| 평균 대치법 |
비조건부 |
평균값으로 대치 |
| 조건부 |
회귀분석 결과로 대치 |
| 단순 확률 대치법 |
K-Nearest Neighbor |
주변 K개의 데이터 중 가장 많은 값으로 대치 |
| Hot-Deck |
현재 데이터셋에서 비슷한 성향으로 대치 |
| Cold-Deck |
유사한 외부 출처에서 비슷한 성향으로 대치 |
| 다중대치법 |
여러 번의 대치(대치 → 분석 → 결합) |
2.3. 이상값
| 이상값 판단 |
ESD (Extreme Studentized Deviation) |
평균에서 표준편차 3만큼 떨어진 값 |
| 사분위수 |
Boxplot에서 1.5 * IQR을 벗어나는 값 평균값은 알 수 없음 |
| Z-score |
데이터 정규화(평균 0, 표준편차 1) |
| DBScan |
밀도 이용 |