1. 데이터 마트

데이터 마트
데이터 웨어하우스로부터 주제별, 부서별로 데이터를 추출한 작은 규모의 데이터 웨어하우스

 

데이터 전처리
정제 결측값, 이상값 처리
변수 처리 변수 선택/변환, 차원 축소, 파생변수 생성 등

 

요약변수/파생변수
요약변수 기초적인 통계자료. 재활용성이 높음 (합계, 평균, 성별 등)
파생변수 목적에 따른 특정 의미가 있는 변수. 논리적 타당성 필요 (A 매장의 월별 합계, 3월 남성 고객 구매 총액 등)

2. 데이터 탐색

2.1. 탐색적 데이터 분석

탐색적 데이터 분석(EDA)
데이터를 이해하고 의미를 찾기 위해 데이터를 시각화, 분석하는 것

2.2. 결측값

결측값
존재하지 않는 데이터. NA/NULL 등으로 표현

 

결측값 처리
단순 대치법
(완전분석법)
데이터 삭제 (결측값이 많은 경우 데이터 손실 발생)
평균 대치법 비조건부 평균값으로 대치
조건부 회귀분석 결과로 대치
단순 확률 대치법 K-Nearest Neighbor 주변 K개의 데이터 중 가장 많은 값으로 대치
Hot-Deck 현재 데이터셋에서 비슷한 성향으로 대치
Cold-Deck 유사한 외부 출처에서 비슷한 성향으로 대치
다중대치법 여러 번의 대치(대치 → 분석 → 결합)

2.3. 이상값

이상값
극단적으로 크거나 작은 값

 

이상값 판단
ESD
(Extreme Studentized Deviation)
평균에서 표준편차 3만큼 떨어진 값
사분위수 Boxplot에서 1.5 * IQR을 벗어나는 값
평균값은 알 수 없음
Z-score 데이터 정규화(평균 0, 표준편차 1)
DBScan 밀도 이용

'자격증 > ADSP' 카테고리의 다른 글

[ADSP] 3과목_통계 분석  (1) 2025.11.02
[ADSP] 2과목  (0) 2025.10.27
[ADSP] 1과목  (0) 2025.10.25

+ Recent posts