고구려
역사서: 신집 5권(이문집) *살수대첩, 영양왕 시기
유물
신라 호우총 호우명그릇 광개토대왕릉비
*by 장수왕
불교
연가7년명 금동여래입상
도교
사신도
벽화
개마무사 쌍영총 벽화 기마무사 안악 3호분 벽화

 

백제
역사서: 서기(고흥) *근초고왕 시기
유물
칠지도
*근초고왕 때 일본에 하사
무덤
무령왕릉
*벽돌무덤, 중국 남조 영향
불교
익산 미륵사지 석탑
*무왕, 목탑 양식의 석탑
부여 정림사지 5층 석탑
*당나라 낙서
도교
금동대향로 산수무늬벽돌

 

신라
역사서: 국사(거칠부) *진흥왕 시기
불교
황룡사 9층 목탑
*선덕여왕, 자장스님, 몽골전쟁 때 불 탐
분황사 모전 석탑
*선덕여왕, 벽돌 모양
유교
임신서기석
*화랑 낙서
무덤
 돌무지덧널무덤 천마총 천마도

 

통일신라
불교
원효: 불교대중화, 일체유심조, 일심사상, 화쟁사상
의상: 화엄사상, 관음신앙, 부석사, 고운사
혜초: 왕오천축국전, 구법순례기
6두품
최치원: 격황소서, 시무책 10여조(for 진성여왕), 고운사
강수: 외교문서, 청방인문표
설총: 원효 아들, 화왕계, 이두문자
원측: 해심밀경소
기타
신문왕: 만파식적
진성여왕: 삼대목(민간 노래 향가 모음집)
불교
불국사
*경덕왕, 김대성
불국사 3층 석탑(석가탑) 무구정광대다라니경
*in 석가탑, 가장 오래된 목판 인쇄물 
감은사지 3층석탑
*신문왕 for 문무왕
승탑
*선종 영향, 짜리몽땅한 것들
부석사
*의상
왕오천축국전
*혜초
의성 고운사
*의상, 최치원
유물
촌락문서
*일본 쇼쇼인에서 발견, 4개 촌락 자세히 기록

 

발해
고구려 계승:  정혜공주묘, 온돌
무덤
정혜공주묘 모줄임 양식 천장
*고구려 계승
정혜공주묘 돌사자상
*고구려 계승
기타
이불병좌상 영광탑

 

 

고려
불교
경천사지 10층 석탑
*고려 말기, 조선 원각사지 10층 석탑 영향
평창 월정사 8각 9층 석탑
*고려 전기
 
논산 관촉사 석조미륵보살입상
*고려 시대 최대 규모
파주 용미리 마애이불입 안동 이천동 마애여래입
건축

예산 수덕사 대웅전
*주심포 양식
안동 봉정사 극락전
*주심포 양식, 최고 목조 건물

영주 부석사 무량수전
*주심포 양식
영주 부석사 무량수전
*베흘림 기둥
영주 부석사 무량수전
*소조여래좌상
그림
수월관음도 천산대렵도
그 외

직지심체요절
*최고 금속활자본 
각종 비색 청자 나전칠기

 

조선
건축
합천 해인사 장경판전
*팔만대장경판, 유네스코 문화유산
종묘
*국왕, 왕비 신주, 유네스코 문화유산
보은사 법주사 팔상전
*조선 후기
도기

분청사기(전기) 순백자(중기) 청화백자(후기)
전기 그림
안견 몽유도원도
*안평대군 꿈
강희안 고사관수도
후기 그림

김정희 세한도(후기) 김정희 추사체(후기) 김정희 금석과안록(후기)
*북한산비, 진흥왕 순수비 고

강세환 영통동구도 겸재 정선 인왕제색도 겸재 정선 금강전도 
김득신 파적도 신윤복 월화정인 김홍도 씨름 

1. 데이터 마이닝

데이터 마이닝
방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것

 

데이터 마이닝 종류
지도학습 - 정답이 있는 데이터
- 독립변수에 따른 종속변수 있음
- 회귀(연속), 분류(범주)
비지도 학습 - 정답이 없는 데이터
- 독립변수에 따른 종속변수 없음
- 군집, 연관, 차원축소

 

데이터 분할
홀드아웃 학습 데이터 / 평가 데이터
K-FOLD 교차검증 k개의 집단으로 구분한 뒤 k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용하여 k개의 모델 구축
LOOCV n-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로
붓스트랩 - 원본 데이터 크기만큼 복원추출
- 특정 데이터가 한 번도 선정되지 않을 확률: 약 36.8%
오버샘플링 특정 범주가 적은 데이터의 데이터 셋 크기를 확장
언더샘플링 특정 범주가 많은 데이터의 데이터 셋 크기를 축소

2. 분류 분석

로지스틱 회귀분석
독립변수(연속형), 종속변수(범주형) → 성공/실패 확률 예측
오즈 - 성공확률 / 실패확률
- 한계: 음수를 가질 수 없음. 비대칭 그래프
P / (1-P)
로짓변환 - 오즈에 로그값을 취함
→ 범위 무한대 확장, 성공확률 0.5 기준 대칭 그래프
log P / (1-P)
시그모이드 함수 - 구하고자 하는 확률값(0~1)
- 로짓 함수의 역함수
 

 

의사결정나무
특정 분리 규칙에 따라 몇 개의 소집단으로 분류 
특징 - 직관적
- 쉬운 전처리
- 이산형, 연속형 모두 적용 가능
- 정규화 필요X
- 선형성, 정규성 가정 필요X
- 이상값에 민감하지 않음
단점 - 독립변수들 간 중요도 판단이 어려움
- 분류 경계선 근처 자료 오차가 큼
- 과적합 발생 가능성 높음
과적합 해소 정지규칙, 가지치기
분류트리
(이산형)
- 카이제곱 통계량
- 지니 지수: 1 - A² - B²
- 엔트로피 지수: - A log (A) - B log (B)
회귀트리
(연속형)
- ANOVA F-통계량
- 분산감소량

 

앙상블
다수의 모형을 결합하여 새로운 모형을 만듦
배깅 - 여러 개의 붓스트랩을 집계 → 보팅(다수결 투표)
부스팅 - 이전 분류기의 잘못된 분류 데이터에 가중치를 주어 점진적으로 붓스트랩 구성
- 병렬 처리가 불가
- 에이다부스팅, Gradient Boost, XGBoost, light GBM 등
랜덤 포레스트 - 배깅 + 의사결정나무
- 표본 추출 과정이 한 번 더 반복되어 표본을 대상으로 최적의 분할을 실시함
- 이상치에 강함
스태킹 - 분류기 간의 결과를 다시 훈련용 데이터로 사용하여 최종모형(메타모델)을 구축
- 높은 복잡도, 오랜 학습 시간, 결과 해석 어려움

 

인공신경망
인간의 뇌를 모방한 퍼셉트론 활용 추론 모델
장점 - 잡음에 민감하지 않음
- 비선형적 문제 분석에 유용
- 스스로 가중치를 학습
단점 - 해석이 어려움
- 하이퍼파라미터(은닉층 수, 노드 수) 설정 어려움
- 모형이 복잡할 경우 학습 오래 걸림
- 추정 가중치의 신뢰도 낮음
구조 단층 입력층(데이터 입력) - 출력층(데이터 출력: 0 또는 1)
다층 입력층 - 은닉층(가중치 계산 → 활성함수 적용) - 출력층
활성함수 은닉층 - 시그모이드 함수: 0~1 (기울기 소실 문제)
- 하이퍼볼릭 탄젠트 함수: -1 ~ 1 (기울기 소실 문제 지연)
- ReLU 함수: max(0, 입력값) (기울기 소실문제 극복)
출력층 - 시그모이드 함수: 이진분류(0~1)
- 소프트맥스 함수: 다중분류(확률 총합이 1)
기본 함수 - 역전파 알고리즘에 활용 불가
- step: 0 또는 1 
- sign: -1 또는 1
학습 방법
(가중치 결정)
순전파 입력층 → 출력층
역전파 출력층 → 입력층 (가중치 조정)
딥러닝 DNN 은닉층 2개 이상 인공신경망
CNN 이미지 패턴 찾는 인공신경망
RNN 순환 구조를 갖는 인공신경망
오토인코더 비지도학습 인공신경망

 

나이브 베이즈
베이즈 정리 기반 모델
특징 - 모든 특징 변수가 서로 독립적이라는 가정
- 과거의 경험을 활용하는 귀납적 추론 방법

 

K-NN 알고리즘
거리 기반으로 이웃에 더 많은 데이터가 포함되어 있는 범주로 분류
하이퍼파라미터: K값
Lazy Model

 

서포트벡터머신
마진이 최대가 되는 초평면을 찾아 이진 분류
구성 - 하이퍼플레인(초평면): 데이터 구분 경계. 가중치벡터와 편향으로 결정
- 서포트벡터: 초평면과 가장 근접한 샘플
- 마진: 초명면과 서포트벡터 사이의 거리
- 커널함수: 저차원 데이터를 고차원 데이터로 변경하는 함수
유형 - 소프트마진분류: 마진 내 어느 정도 오류 허용
- 하드마진분류: 오류 비허용

 

오분류표
정분류율(정확도) 전체 중 올바르게 예측한 비율 (TP+TN) / 전체
오분류율 전체 중 잘못 예측한 비율 (FP+FN) / 전체
민감도(재현율) 실제 T 중 예측한 T TP / (TP + FN)
특이도 실제 N 중 예측한 N TN / (TN+FP)
정밀도 예측 T 중 실제 T TP / (TP + FP)
거짓 긍정률 실제 N 중 예측 P FP / (FP+TN)
F1 스코어 (2 * 민감도 * 정밀도) / (민감도 + 정밀도)  

 

평가지표
ROC 커브 - X축: FPR(1-특이도)
- Y축: TPR(민감도)
- 0.5(안좋음) ~ 1(좋음)
이익도표 임의로 나눈 등급별 성능 판단

3. 군집 분석

군집분석
자료들 사이의 유사성을 측정하고, 유사한 자료들끼리 군집을 만듦

 

거리 측도
연속형 유클리디안 가장 짧은 거리 √(a1-b1)²+*(a2-b2)²
맨하튼 가로지르지 않고 따라간 거리 |a1-b1| + |a2-b2|
체비셰프 변수 간 거리 차이 중 최댓값 max(|a1-b1|, |a2-b2|)
범주형 자카드 합집합 교집합 비율  
코사인 코사인 각도  

 

계층적 군집분석 - 군집 간 거리
단일 최단연결법. 가장 가까운 데이터로 계산
완전 최장연결법. 가장 먼 데이터로 계산
평균 군집 내 평균 데이터로 계산
중심 군집 중심점 사이 거리
와드 군집 내 편차 제곱합이 최소

 

비계층적 군집분석
k-means 군집 - k값 설정
- seed: 임의로 설정된 k개의 데이터
- 단순하고 빠름
- k값 설정 어려움
- 해석 어려움
- 안정 보장, 최적 비보장
- 이상값에 민감(평균값 대신 중앙값, k-medoids) 
DBSCAN - 밀도 기반 군집분석
- 초기 군집 수 설정 x
- 노이즈와 이상치에 강함
EM 알고리즘 - 분포 기반
- 기댓값 최대화
자기조직화지도(SOM) - 인공신경만 기반
- 차원 축소: 시각적 이해 쉬움
- 완전연결
- 승자 노드
- 순전파 방식: 매우 빠름
- 패턴 발견 및 이미지 분석 우수
- 초기 학습률 및 가중치에 많은 영향
- 이상적 노드 개수 결정 어려움

 

군집분석 평가 지표
실루엣 계수 같은 군집 간 가깝고 먼 정도(-1~1)

4. 연관분석

연관분석
구매 패턴 분석 - 조건에 따른 결과의 형태로 해석
특징 - 결과가 단순하고 분명함
- 계산이 간단함
- 목적변수가 없음
- apriori 알고리즘
단점 - 품목 세분화에 어려움이 있음
- 품목 수 증가가 기하급수적인 계산량 증가를 초래함
- 거래가 발생하지 않은 품목은 분석이 불가함

 

측도
지지도 a와 b 두 품목이 동시에 포함된 거래의 비율 동시 거래 / 전체 거래
신뢰도 a가 구매됐을 때 b가 구매될 확률(a → b) 동시 거래 / a 거래
향상도 a가 없을 때 b가 구매될 확률 대시 a가 있을 때 b가 구매될 확률 (동시 거래 * 전체 거래) / (a 거래 * b 거래)

 

1. 통계의 이해

1.1. 통계 개요

확률적 표본추출 방법
단순 랜덤 추출법 무작위 추출
계통 추출법 번호를 부여하고 일정한 간격으로 추출
집락(군락) 추출법 여러 군락으로 구분하고 한 군락을 선택 - 집단 내 이질적
층화 추출법 여러 군락으로 구분하고 각 군락에서 추출(비례/불비례) - 군락 간 이질적
복원•비복원 추출 복원: 표본으로 뽑힌 데이터가 다시 모집단으로
비복원: 한 번 뽑힌 데이터는 모집단에서 제외

 

비확률적 표본추출 방법
편의 추출법 연구자 편한대로
의도적 추출법 연구자가 정한 기준대로
할당 추출법 특정 기준으로 나누고 그 군락에서 할당된만큼
눈덩이 추출법 응답자 추천
자기 선택 추출법 응답자가 스스로 선택

 

척도
질적 척도 명목 척도 범주       성별
순서 척도 범주 순서     신용도
양적 척도 등간 척도 범주 순서 상대적 크기   온도
비율 척도 범주 순서 상대적 크기 절대적 크기(0 존재) 신장

 

통계 종류
기술 통계 표본 자체의 속성이나 특징 파악에 중점(기술 통계량: 최솟값, 최댓값, 중위수 등)
추리 통계 모집단의 특성 추정에 중점

1.2. 확률과 확률분포

중심경향성 측면
산술평균 일반적 개념: 모든 값 합산 후 개수로 나눔
기하평균 비율적 증가율: 모듭 값 곱하고 n 제곱근을 구함
조화평균 비율 계산: 역수의 산술평균을 구하고 다시 역수를 취함
중앙값 -
최빈값 -

 

분산 정도 측면
분산 각 데이터가 평균과 얼마나 떨어져 있는지
표준편차 분산에 제곱근을 취한 값
사분위수 하위 25% 상위 75%의 중간 범위

 

관계 측면
공분산 두 확률변수의 상관정도
공분산 = 0: 전혀 상관 없음
공분산 > 0: 양의 상관관계
공분산 < 0: 음의 상관관계
* 두 변수가 독립이면 공분산이 0이지만, 공분산이 0이라고 두 변수가 독립은 아닐 수 있음
상관계수 상관정도를 -1, 1 값으로 표현

 

첨도와 왜도
첨도 - 뾰족한 정도
- 기준인 3에 가까울수록  정규분포모양
- 3에서 0을 빼기도 함
왜도 - 비대칭 정도
- 0에 가까울수록 정규분포 모양
- 왜도가 양수면 꼬리가 오른쪽 ∴최빈값< 중앙값 < 평균값
- 왜도가 음수면 꼬리가 왼쪽 ∴평균값 < 중앙값 < 최빈값

 

이산확률분포 *베이기음초포다
이산 균등 분포 모든 값이 일정한 분포
ex. 주사위의 각 면이 나오는 확률
베르누이 분포 결과가 두 개 중 한 가지로 나타나는 베르누이 시행의 결과로 나타나는 분포
ex. 앞면/뒷면, 성공/실패, 합격/불합격
이항 분포 n번의 베르누이 시행에서 k번 성공할 확률
ex. 동전 10번 던져서 2번 앞면 나올 확률
기하 분포 성공 확률이 p인 베르누이 시행에서 처음으로 성공할 때까지 시행횟수의 분포
ex. 동전 10번 던져서 처음 앞면 나올 확률
음이항 분포 성공 확률이 p인 베르누이 시행에서 k번 성공할 때까지 시행횟수의 분포
ex. 앞면이 2번 나올 때까지 던진 횟수
초기하 분포 N개 중 비복원추출로 n번 추출했을 때 원하는 결과가 k번 나올 확률
ex. 구슬 10개 중 5번 뽑았을 때 검정 구슬이 3개 나올 확률
포아송 분포 단위 시간/공간에서 발생할 수 있는 사건의 발생 횟수
ex. 하루 동안의 범죄 횟수, 5쪽 내 오타 횟수
다항 분포 n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률
ex. 주사위를 10번 던져 각 면이 나올 확률

 

연속확률분포
균일 분포 모든 값이 같은 확률을 갖고 있는 분포
정규 분포 - 확률 분포의 평균 분포를 근사한 분포
- 중심극한정리: 모집단 분포에 상관없이 표본 크기가 30개 이상이면 표본분포가 정규분포를 이룸
표준 정규 분포 평균이 0, 표준편차가 1인 정규분포
t - 분포 - 정규분포보다 꼬리가 두꺼운 분포
- 표본이 30개 이하인 작은 집단에서 주로 사용
카이제곱 분포 - 독립적 정규분포를 따르는 변수들의 제곱합으로 구성된 분포
- 두 집단 간 동질성, 단일 집단 모분산 검정에 사용
F 분포 - 두 개의 서로 다른 카이제곱 분포의 비율
- 두 집단의 분산 동질성 검정에 사용

1.3. 추정과 가설검정

추정
점추정 모수를 특정 값이라고 추정 추정량의 조건 *불효충일
- 불편성: 추정값과 모수값 차이의 기댓값이 0 
- 효율성: 추정량이 최소의 분산을 가질수록 효율적
- 충족성: 추정량이 모집단 정보를 최대한 반영
- 일치성: 표본 크기가 클수록 추정량이 모수에 가까워짐
구간추정 - 모수를 특정 구간이라고 추정
- 신뢰수준 95%, 99%를 주로 사용
- 모분산을 아는 경우: z 검정
- 모분산을 모르는 경우: t 검정

 

가설검정
가설 귀무가설(H0) 일반적인 가설
대립가설(H1) 증명하려는 가설
오류 1종 오류(α) 귀무가 참인데 거짓이라고 결정하는 오류
2종 오류(β) 귀무가 거짓인데 참이라고 결정하는 오류
검정통계량 귀무의 참거짓을 판단할 수 있는 값
기각역 검정통계량이 기각역 내에 있으면 기각
유의수준 1종 오류 허용 한계
유의확률 귀무가설을 지지하는 정도
- 유의확률 > 유의수준: 귀무 기각 불가
- 유의확률 < 유의수준: 귀무 기각 가능

 

비모수 검정
모수의 분포에 대해 어떠한 가정도 하지 않는 검정
• 모수 검정 • 비모수 검정
- 등간척도, 비율척도
- 평균
- 피어슨 상관계수
- T- test, one way anova 등
- 명목척도, 서열척도
- 중앙값
- 스피어만 순위상관계수
- 크순스부부연프(크리스컬, 순위합, 스피어만, 부호, 부호순위, 연속성, 프리드만)

2. 기초통계

t - 검정
일 표본 t - 검정 하나의 모집단의 평균 값을 특정값과 비교
단측(~ 보다 크다, 작다), 양측 (~이다, ~아니다)
이 표본 t - 검정 서로 독립적인 두 집단의 모평균의 값이 동일한지 검정
단측(~가 ~보다 크다, 작다), 양측(두 집단이 같다, 다르다)
대응 표본 t - 검정 동일한 대상의 두 가지 관측치를 비교(ex. 전후 비교)

 

분산분석(ANOVA)
세 개 이상의 모집단 사이의 평균을 비교
가정사항: 정규성(정규분포 따름), 등분산성(동일한 분산을 가짐), 독립성(서로 영향을 주지 않음)
일원분산분석 독립변수와 종속변수가 한 개
이원분산분석 독립변수의 수가 두 개 이상일 때
- 독립변수 간 교호작용 O → 반복이 있는 실험
- 독립변수 간 교호작용 X → 반복이 없는 실험

 

교차분석
범주형 자료 간의 관계를 알아볼 때 사용(카이제곱 검정통계량)
적합도 검정 관측값(관측도수)이 예상값(기대도수)과 일치하는가? (귀무: 두 분포가 일치함)
독립성 검정 두 변수가 독립적인가? (상관관계의 강도는 알 수 없음)
동질성 검정 관측값들이 범주 내에서 비슷하게 나타나는가?

 

상관분석
두 변수 간의 선형적 관계가 존재하는가?
피어슨 상관분석 - 가정사항: 두 변수가 정규분포를 따름
- 양적 척도, 연속형 변수, 선형관계
스피어만 상관분석 - 서열 척도, 순서형 변수, 비선형적관계
- 두 변수가 선형관계가 아니더라도 계수가  ±1이 될 수 있음

3. 회귀분석

회귀분석
개념 독립변수들이 종속변수에 얼마나 영향을 미치는가?
종류 단순회귀 1개의 독립변수와 종속변수
다중회귀 k개의 독립변수와 종속변수
다항회귀 독립변수와 종속변수가 2차 함수 이상의 관계
가정
*선분정독
선형성 독립변수와 종속변수는 선형적임
등분산성 분산이 같음(=잔차들이 고르게 분포함)
정규성 잔차항이 정규분포 형태임
독립성 잔차와 독립변수의 값이 독립적임

 

회귀분석모형의 적합성
회귀모형의 유의성 F - 검정, p - value F 통계량: p값과 반비례, 상관관계와 비례
회귀계수의 유의성 t - 검정, p - value t 통계량:p값과 반비례, 상관관계와 비례
모형의 설명력 데이터의 분포가 회귀선에 밀접하게 분포하는가?
결정계수 R² 단순선형회귀
R² = SSR/SST
수정 결정계수 다중회귀분석
adjusted R² = 1 - (n-1)(1-R²)/(n-p-q)

 

 

결과 해석
변수 - 종속변수(height)
- 독립변수(age, no_siblings)
회귀모형의 유의성 유의미(1.658e-09)
회귀계수의 유의성 - 유의미(age: 4.34e-10)
- 무의미(no_siblings: 0.851)
모델의 설명력 98% 이상 설명(0.9863)
자유도 - 회귀(2)
- 잔차(9)
-사용 데이터(12 = 2+9+1)
회귀식 Y = 0.63516Xage - 0.01137Xno_siblings + 64.95872

 

다중공선성
개념 독립변수 간 상관관계를 가지는 것 *독립성 위배 문제
진단 결정계수 R²이 커 설명력이 높지만, 각 독립변수의 P값이 커 개별 인자가 유의하지 않은 경우
분산팽창요인(VIF)=1/(1- 결정계수 R²) > 10 ∴다중공선성O
문제 해결법 - 변수 제거
- 주성분 개수 선택(스크리플롯)
- 차원 축소(주성분분석, 선형판별분석, t - 분포 확률적 임베딩, 특잇값 분해)

 

최적 회귀방정식
종속변수에 유의미한 영향을 미칠 것으로 예상되는 독립변수를 선택하는 과정
성능지표 AIC - 변수의 수만큼 패널티
- 단점: 표본이 커질 때 부정확
BIC - AIC의 단점 보완
- AIC보다 더 큰 패널티
멜로우 Cp 최소자승법 사용
변수선택법 부분집합법(임베디드) 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정
전진선택법 설명력이 가장 높은 변수부터 하나씩 추가
후진제거법 설명력이 가장 낮은 변수부터 하나씩 제거
단계별 방법 전진선택법+후진선택법

 

정규화 선형회귀
회귀분석에서 과적합되어 계수의 크기가 과도하게 증가하는 것을 방지하기 위해 계수의 크기를 제한
라쏘 L1 규제: 가중치들의 절댓값의 합을 최소화
릿지 L2 규제: 가중치들의 제곱합을 최소화
엘라스틱넷 라쏘+릿지

4. 다변량 분석

다차원 척도법(MDS)
객체 간 거리 정보의 근접성을 시각화
특징 - 유사성/비유사성을 측정하여 데이터를 축소
- x/y축 해석 불가
측도 stress 척도 0~1 값
0.05 이내면 우수한 적합도
종류 계량적 MDS - 구간척도, 비율척도
- 유클리디안 거리 행렬
비계량적 MDS - 서열척도
- 거리속성값으로 변환하여 사용

 

주성분분석(PCA)
상관성이 높은 변수들의 선형 결합으로 차원을 축소하여 주성분을 생성
방법 손실이 가장 작은, 즉 분산이 가장 큰 축이 첫번째 주성분
평균 고윳값 방법 고유 벡터의 크기인 고윳값들의 평균을 구한 뒤, 고윳값이 평균보다 작은 주성분을 제거
scree plot 주성분 개수 선택에 도움이 되는 그래프(고윳값이 1근처, 수평을 이루기 전 단계로 선택)
biplot 첫 번째 주성분과 두 번째 주성분을 축으로 하는 그래프

5. 시계열 분석

5.1. 시계열 분석

시계열 분석
일정 시간 간격으로 기록된 자료들에 대해 특성을 파악하고 미래를 예측하는 분석
날씨 에측, 주식 예측, 판매 예측 등

5.2 정상성

정상성 조건
일정한 평균 - 모든 시점에 대해 평균이 일정
- 차분을 통해 정상화(현 시점 자료 값 - 전 시점 자료 값)
일정한 분산 - 모든 시점에 대해 분산이 일정
- 변환을 통해 정상화(지수 혹은 로그 취함)
시차에만 의존하는 공분산 - 시차에만 의존하고 특정 시점에 의존하지 않음
- t 시점과 t + s 시점의 공분산 = t 시점과 t - s 시점의 공분산

 

정상화 방법
이동평균법 일장 기간의 평균
지수평활법 최근 데이터일수록 큰 가중치 부여
그 외 차분, 변환(지수, 로그, Box-Cox 등)

5.3. 시계열 모형

백색잡음
현재의 시점이 이전 시점과의 상관관계가 존재하지 않는, 즉 공분산과 자기공분산이 모두 0인 시계열 자료
정규분포를 따를 경우 가우시안 백색잡음, 평균이 0인 경우 오차항

 

자기상관계수
자기상관함수 자료가 시간에 의존하지 않고 무작위성을 띠는지 확인
부분자기상관함수 두 시게열 확률변수 간에 다른 시점의 확률변수 영향력을 통제하고 상관관계만 보여줌

 

시계열 모형
자기회귀모형(AR) 부분자기상관함수 사용
이동평균모형(MA) 자기상관함수 사용
자기회귀누적이동평균모형(ARIMA) 자기회귀모형+이동평균모형
ARIMA(p,d,q) = ARIMA(AR, 차분, MA)

5.4. 분해 시계열

분해 시계열
추세요인 장기간 일정한 방향으로 상승 또는 하락
계졀요인 일정한 주기를 갖는 상하 반복의 규칙적인 변동
순환요인 원인을 알 수 없는 상하 반복의 불규칙한 변동
불규칙요인 설명하지 못하는 오차, 예측 불가능한 변동

 

'자격증 > ADSP' 카테고리의 다른 글

[ADSP] 3과목_R기초와 데이터 마트  (0) 2025.10.27
[ADSP] 2과목  (0) 2025.10.27
[ADSP] 1과목  (0) 2025.10.25

1. 데이터 마트

데이터 마트
데이터 웨어하우스로부터 주제별, 부서별로 데이터를 추출한 작은 규모의 데이터 웨어하우스

 

데이터 전처리
정제 결측값, 이상값 처리
변수 처리 변수 선택/변환, 차원 축소, 파생변수 생성 등

 

요약변수/파생변수
요약변수 기초적인 통계자료. 재활용성이 높음 (합계, 평균, 성별 등)
파생변수 목적에 따른 특정 의미가 있는 변수. 논리적 타당성 필요 (A 매장의 월별 합계, 3월 남성 고객 구매 총액 등)

2. 데이터 탐색

2.1. 탐색적 데이터 분석

탐색적 데이터 분석(EDA)
데이터를 이해하고 의미를 찾기 위해 데이터를 시각화, 분석하는 것

2.2. 결측값

결측값
존재하지 않는 데이터. NA/NULL 등으로 표현

 

결측값 처리
단순 대치법
(완전분석법)
데이터 삭제 (결측값이 많은 경우 데이터 손실 발생)
평균 대치법 비조건부 평균값으로 대치
조건부 회귀분석 결과로 대치
단순 확률 대치법 K-Nearest Neighbor 주변 K개의 데이터 중 가장 많은 값으로 대치
Hot-Deck 현재 데이터셋에서 비슷한 성향으로 대치
Cold-Deck 유사한 외부 출처에서 비슷한 성향으로 대치
다중대치법 여러 번의 대치(대치 → 분석 → 결합)

2.3. 이상값

이상값
극단적으로 크거나 작은 값

 

이상값 판단
ESD
(Extreme Studentized Deviation)
평균에서 표준편차 3만큼 떨어진 값
사분위수 Boxplot에서 1.5 * IQR을 벗어나는 값
평균값은 알 수 없음
Z-score 데이터 정규화(평균 0, 표준편차 1)
DBScan 밀도 이용

'자격증 > ADSP' 카테고리의 다른 글

[ADSP] 3과목_통계 분석  (1) 2025.11.02
[ADSP] 2과목  (0) 2025.10.27
[ADSP] 1과목  (0) 2025.10.25

1. 데이터 분석 기획의 이해

1.1. 분석 기획과 분석 방법론

1.1.1. 분석 기획

분석 기획 실제 분석을 수행하기 전, 계획을 수립하는 사전 작업

 

분석 주제
  분석 대상 O (하향식 접근) 분석 대상 X (상향식 접근)
분석 방법 O 최적화
OPTIMIZATION
통찰
INSIGHT
분석 방법 X 솔루션
SOLUTION
발견
DISCOVERY

 

목표 시점 별 기획 방안
  과제 중심 장기 마스터플랜 중심
목적 빠르게 해결 지속적 해결
1차 목표 Speed & Test Accuarancy & Deploy
과제 유형 Quick & Win Long Term View
접근 방식 Problem Solving Problem Definition

 

분석 기획 시 고려사항 *장가유
애요소 발생 가능한 장애요소에 대한 사전 계획 수립
용 데이터 데이터가 확보될 수 있는지 고려
스케이스 유사 시나리오 및 솔루션을 최대한 활용

 

1.1.2. 분석 방법론

분석 방법론 과제 해결을 위한 작업 수행 절차의 정의

 

방법론 구성 요소 *상방도산 세한 절차, 법, 구와 기법, 템플릿과 출물
분석 방법론 생성 과정
암묵지 → (형식화) → 형식지 → (체계화) → 방법론 → (내재화) → 암묵지
분석 방법론 모델
폭포수 모델 순차적 진행
현재 단계가 완료되어야 다음 단계로 진행
프로토타입  모델 일부분 개발 후 사용자 요구에 따라 개선 작업을 시행해 점진적으로 개발
고객의 요구를 완전히 이해하지 못할 경우 적용
나선형 모델 반복을 통해 점증적으로 개발
위험요소 사전 제거에 초점
계층적 프로세스 모델 스텝(WBS 워크패키지, 입력/처리/출력) - 태스크 - 단계로 구성
반복적 모델 증분형: 전체 시스템을 작은 기능 단위로 나누어 개발
진화형: 핵심 부분 개발 후 요구사항을 반영해 개발
애자일 짧은 개발 주기를 가지고, 고객 피드백을 지속적으로 반영하여 반복적인 개발

 

1.1.3. 전통적인 분석 방법론

KDD 분석 방법론 *Sel P Trans M E
데이터셋 선택 Selection 프로젝트 목표 설정. 필요 데이터 선택. 타깃 데이터 생성
데이터 전처리 Preprocessing 데이터 제거 및 재가공
데이터 변환 Transformation 변수 생성/선택 및 차원 축소, 학습용/검증용 데이터 분리
데이터 마이닝 Data Mining 데이터 마이닝 기법 선택. 알고리즘 적용
해석과 평가 Evaluation 분석 목적과의 일치성 확인. 업무 활용 방안 마련

 

DRISP-DM 분석 방법론 *업데데 모델평가전
무 이해 업무 목적 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
이터 이해 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
이터 준비 데이터 정제/통합/포매팅, 분석용 데이터셋 선택/편성
모델 모델링 기법 선택 → 모델 테스트 계획 설계 모델 작성  모델 평가
평가 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
피드백: 업무 이해 ↔ 데이터 이해
위대한 실패: 평가 → (문제 발생)→ 업무 이해

 

SEMMA 분석 방법론
Sample Explore Modify Model Assess
data 추출 탐색, 오류 확인 데이터 변환 알고리즘 적용 모델링 평가, 검증

 

1.1.4. 빅데이터 분석 방법론 *PPADD

단계 태스크 스텝
분석 기획
Planning
비즈니스 이해 및 범위 설정  
프로젝트 정의 및 계획 수립 SOW(프로젝트 범위 정의서), WBS(업무분할구조)
프로젝트 위험 계획 수립 위험 대응 계획(회피, 전이, 완화, 수용) *회전완수
데이터 준비
Preparing
필요 데이터 정의 피드백 가능
데이터 스토어 설계
데이터 수집 및 정합성 검정
데이터 분석
Analyzing
분석용 데이터 준비
텍스트 분석
탐색적 분석
모델링
모델 평가 및 검증
시스템 구현
Developing
설계 및 구현  
시스템 테스트 및 운영  
평가 및 전개
Deploying
모델 발전 계획 수립  
프로젝트 평가 및 보고  

 


1.2. 분석 과제 발굴

분석 과제 탐색 방법
하향식 접근법 분석 대상을 알고 있을 때, 각 과정을 체계적으로 단계화하여 문제를 해결
상향식 접근법 분석 대상을 알지 못할 때, 다양한 데이터의 조합 속에서 인사이트 발굴 *주로 비지도 학습 기법

 

하향식 접근법
문제 탐색 비즈니스 모델 탐색 기법 비즈니스 모델 갠버스 9가지 블록을 5가지로 단순화
5가지: 업무, 제품, 고객, 규제와 감사, 지원 인프라
외부 참조 모델 기반 문제 탐색 기법 유사 동종 사례 벤치마킹 = 가장 빠르고 쉬운 방식
분석 유스케이스: 분석 적용 시의 업무 흐름을 개념적으로 설명한 것
분석 기회 발굴 범위 확장 거시적(STEEP)•경쟁자 확대•시장의 니즈•역량의 재해석 관점
문제 정의 식별된 비즈니스 문제  데이터의 문제 변환
해결 방안 탐색 기존 시스템으로 가능한가? 분석 역량이 있는가?
기존 시스템 활용 / 역량 확보(교육&채용) / 시스템 고도화 / 아웃소싱
타당성 검토 경제적 타당성 비용 대비 편익 분석
데이터 및 기술적 타당성 데이터 존재 여부, 분석 시스템 환경, 분석 역량 고려

 

디자인 씽킹
IDEO사 [혼합 접근법] 발산(상향식) - 수렴(하향식)을 반복
더블 다이아몬드 프로세스(문제 발견 / 솔루션 제시)
스탠퍼드대학 d.school [상향식 접근법]
공감  문제 정의  아이디어 도출  프로토타입  테스트  평가

 

프로토타이핑 접근법
개념 [상향식 접근법]
먼저 분석을 시도하고, 그 결과를 확인하며 개선하는 방법
문제 인식 수준, 데이터 존재 여부, 사용 목적이 불명확할 경우 유용
프로세스 가설 생성 디자인 실험 실제 환경 테스트  인사이트 도출 및 가설 확인

 

지도 학습과 비지도 학습
지도 학습 정답이 있는 데이터 머신러닝, 의사결정나무, 인공신경망, 분류분석 등
비지도 학습 정답이 없는 데이터 장바구니 분석, 군집분석, 기술통계, 프로파일링 등

 


1.3. 분석 프로젝트 관리 방안

분석 과제 관리 시 고려해야 할 속성
데이터 양  
데이터 복잡도 정형, 비정형, 반정형
분석 속도 실시간 수행이 필요한 경우 고려
분석 복잡도 복잡할수록 정확도는 증가하지만 해석력은 낮아짐
정확도/정밀도 정확도: 모델과 실제 값 차이  활용성
정밀도: 모델 값들의 편차 수준 안정성

 

분석 과제 관리 방안(프로젝트 관리 지침) *이범통 의자 시원 조리품
해관계자 - 위 - 합 - 사소통 - 원 - 간(Time Boxing: 완수 못해도 다음 작업) - 가 - 달(아웃소싱) - 스크 -

 

능력 성숙도 통합 모델
1단계 개인의 역량이 성공/실패의 주요 요인
2단계 일정이나 비용이 성공/실패의 주요 요인
3단계 조직을 관리하기 위한 프로세스가 존재
4단계 체계적 관리하에 프로젝트 및 산출물에 대한 정량적인 측정이 가능
5단계 최적화된 프로세스 보유, 지속적인 개선을 목표

 


2. 분석 마스터 플랜

2.1. 마스터플랜 수립

분석 마스터플랜
분석 프로젝트를 위한 전체 설계도

 

마스터플랜 수립 프레임워크
1. 우선순위 설정 전략적 중요도, 실행 용이성, 비즈니스 성과 및 ROI를 고려하여 우선순위 설정
2. 과제 적용 범위 및 방식 설정 업무 내재화 • 분석 데이터 • 기술의 적용 수준 설정
3. 분석 구현 로드맵 수립 Analytics 구현 로드맵 수립

 

일반적인 우선순위 평가
전략적 중요도 전략적 필요성 본원적 업무에 직접적으로 밀접한 관계가 있는가?
시급성 고객 요구사항, 업무능률, 경쟁우위 측면에서 시급히 수행되어야 하는가?
실행 용이성 투자 용이성 기간 및 인력 투입 용이성, 비용 및 투자예산 확보 가능성
기술 용이성 기술의 안정성, 유지보수 용이성, 신기술 적용성 등

 

ROI 활용 우선순위 평가
시급성 전략적 중요도, 목표가치(KPI) Value 비즈니스 효과
난이도 데이터 획득/저장/가공 비용, 분석 적용 비용, 분석 수준 Volume, Variety, Velocity 투자 비용 요소

 

포트폴리오 사분면
어려움
현재
어려움
미래
쉬움
현재
쉬움
미래
시급성 중시 쉬움/현재 → 쉬움/미래 → 어려움/미래
난이도 중시 쉬움/현재 → 어려움/현재 → 어려움/미래

 


2.2. 분석 거버넌스 체계 수립

2.2.1. 분석 거버넌스

분석 거버넌스
데이터 분석을 기업 문화로 정착하고 고도화하기 위한 체계적인 데이터 관리 체계

 

분석 거버넌스 구성 요소 *데시프조마
데이터, 시스템, 프로세스, 조직, 마인드 및 교육

 

분석 성숙도 수준 진단 (CMMI)
분석 준비도
*IT데기업조직문화
IT인프라, 이터, 분석 법, 분석 무 파악, 인력 및 조직, 문화
분석 성숙도 부문 비즈니스, 조직 및 역량, IT
단계 도입(시작) - 활용(업무 적용) - 확산(전사 차원) - 최적화(혁신, 성과)
사분면 *준정확도 준비형 준비도 낮음, 성숙도 낮음 - 준비 필요
정착형 준비도 낮음, 성숙도 높음 - 정착 필요
확산형 준비도 높음, 성숙도 높음 - 지속적 확산 가능
도입형 준비도 높음, 성숙도 낮음 - 준비됐으니 도입 필요

 

분석 지원 인프라 방안: 플랫폼(중앙집중)
광의의 분석 플랫폼 협의의 분석 플랫폼 데이터 처리 프레임워크, 분석 엔진, 분석 라이브러리
컴퓨터 시스템 하드웨어, 운영체제
- 분석 서비스 제공 엔진, 분석 애플리케이션, 분석 서비스 제공 API

 

2.2.2. 데이터 거버넌스

데이터 거버넌스
전사의 모든 데이터에 대한 정책과 프로세스 관점에서의 관리 체계

 

데이터 거버넌스 구성 요소 *원조프
원칙(지침과 가이드), 조직(역할과 책임), 프로세스(활동과 체계)

 

데이터 거버넌스 체계
데이터 표준화 데이터 사전 구축, 데이터 표준 용어 설정, 명명 규칙 수립 등
데이터 관리 체계 효율성을 위한 관리 원칙, 항목별 상세 프로세스, 데이터 생명 주기 관리 방안 수립
데이터 저장소 관리 전사 차원의 저장소 구성, 데이터 구조 변경에 따른 사전 영향 평가
표준화 활동 모니터링, 교육, 표준화 개선 활동

 

빅데이터 거버넌스
데이터 거버넌스 체계 + 빅데이터 효율적 관리, 데이터 최적화, 정보보호, 데이터 가테고리별 관리 책임자 지정 등

 

2.2.3. 데이터 조직 및 인력 방안

데이터 분석 조직(DSCoE)
경쟁력 확보를 위해 빅데이터 속에서 인사이트를 찾아 액션화하는 조직

 

데이터 분석 조직 유형
집중형 독립적인 전담 조직. 우선순위 설정 가능. 업무 중복 및 이원화 문제. 
기능형 해당 업무 부서에서 직접 분석. 특정 부서에 국한된 분석. 업무 중복 및 이원화 문제.
분산형 분석 조직 인력을 각 부서에 배치. 우선수위 설정 가능. 신속한 실무 적용 가능.

 

 

'자격증 > ADSP' 카테고리의 다른 글

[ADSP] 3과목_통계 분석  (1) 2025.11.02
[ADSP] 3과목_R기초와 데이터 마트  (0) 2025.10.27
[ADSP] 1과목  (0) 2025.10.25

1. 동네 설명

소개 위치 I live in a neighborhood in 의정부. 
It's close to 서울. So many people who work there live here.
특징 장소 It's a quite neighnorhood.
There's a riverside and a tons of parks.
So it's perfect for people who enjoy taking walks.
내 생각 장점 The best thing about this neighborhood is that so many people walk their dogs. 
The park is always full of dogs. 
It makes me happy to watch them when I take a walk.

 

2. 나의 이웃

소개 Actually I don't have a lot of neighbor in this neighborbood.
But I know one really nice neighbor, OO
관계 I met her through the volunteering at the library. 
We often go to the cinema to watch movies or hang out at the library to read together.
특징 She has black hair and brown eyes.
She is really calm and chill.
생각 So I feel comfy around her.
I really enjoy spending time with her. 
I'm so lucky to have a neighbor like her.

 

3. 동네 경험

문제 When I was a kid, I was shopping with my mon at the supermarket.
And I lost my mom
원인 I don't exactly remember why it happened.
But you know, it's something that happens to kids sometimes. 
해결 Actually I was pretty calm back then, so I didn't cry or panic.
I was just thinking. What can I do?
Finally, I decided to go home by myself.
The supermarket was pretty close, and I knew how to get home.
So I got home safely. And I don't remember what my mom said afterward.
느낀 점 Anyway I learned that if you stay calm, you can handle any situation.

1. 사는 곳 묘사

형태 I live in an apartment in 의정부.
시설 I really like living here. cuz there's a nice library and a riverside nearby. I often go there to read a book or take a walk.
가족 I live with my family - my mom, dad and older brother.
개수 There are three rooms. My parents have one room, my brother has another, and I have my own room.
특징 I like cleaning. So my room is usually tidy.
생각 I'm a homebody. So I spend a lot of time at home especially on my bed. 
가구 특징 My bed is my favorite piece of furniture. Recently i bought a really soft blanket. 
생각 It's so cozy. I feel really happy when I turn off the light and lie down. It's my favorite way to unwind after a lond day.

 

2. 좋아하는 방

형태 I live in an apartment with my family - my mom, dad and older brother.
개수 So there are three rooms. My parents have one room, my brother has another, and I have my own room.
최애 My favorite room is definitely my own. 
생각 I like cleaning. So my room is always tidy. 
가구 특징 Actually I don't have a lot of furniture in my room. I only have a bed, a desk, a wardrobe.
생각 cuz I'm a minimalist. I prefer having fewer things. So my room feels clean and spacious.
최애 Out of all of my furnitures, my bed is my favorite. Recently i bought a really soft blanket. 
생각 It's so cozy. I feel really happy when I turn off the light and lie down. It's my favorite way to unwind after a lond day.

 

3. 과거의 집 - 현재의 집 비교

비교 대상 소개 현재 Now I live in an apartment in 의정부 with my family.
과거 But up until five years ago, I lived in an different apartment in Nowon with my family. There was a place where I grew up.
과거 주변 Back then, the location was good for me. cuz I was a student, and my school was close. It was five minutes on foot.
But the house was a bit small. It didn't get much sunlight.  
It had three rooms. I had my own room, but it was really tiny and pretty cold in winter.
현재 주변 In contrast, my cureent house isn't near a school. But that doesn't matter. cuz I'm no longer a student. Instead I have a library and riverside nearby. That's better for me.
And the house is bigger now. and it gets a lot of sunlight. 
My room is bigger as well. I enjoy decorating it according to my taste.

 

4. 집에서 겪은 문제

문제 추워 When I lived in Nowon. My room was so cold. I was almost freezing. 
원인 큰 창문 cuz my room had a big window. It made winter pretty tough.
해결 1 전기장판 So I used an electric blanket during the winter. But my room was still cold.
해결 2 이사 But it's fine now. since I moved. There's no big window anymore, and a lot of sunlight comes in nicely. It feels warm and cozy.
배운 점 일조량 I've realized how important it is to have warm room after experiencing a really cold one in the past. 

 

1. 데이터의 이해

1.1. 데이터와 정보

데이터의 특성
존재적 특성 객관적 사실
당위적 특성 정보의 근거

 

데이터 유형
정형 데이터 csv, 엑셀 스프레드시트, 관계형 DB 등
비정형 데이터 SNS, 영상, 음성, 댓글 등
반정형 데이터 XML, JSON, 센서 데이터 등
* [비정형] SNS 관련  [반정형] 생소한 용어들  

 

암묵지-형식지 상호작용 *내표공연
면화 출화
통화 결화

 

DIKW 피라미드
데이터 Data 객관적 사실
정보 Information 의미가 도출된 것
지식 Knowledge 경험을 결합해 지식으로 내재화된 것
지혜 Wisdom 지식의 축적과 아이디어가 결합된 창의적 산물

 

데이터 단위
bit - byte - kb - mb - gb - tb - pb - eb - zb - yb 

 

1.2. 데이터베이스

DB와 DBMS
DB 정보의 집합체
DBMS DB 관리 소프트웨어

 

DB 특징 *공통저변
여러 사용자가 공동으로 이용
중복되지 않게 통합됨
컴퓨터가 접근 가능한 저장 매체에 저장
항상 최신의 정확한 데이터 상태 유지

 

DB 설계 *개논물
념적 개념적 스키마 생성
리적 ERD를 활용한 논리적 모델링
리적 저장 구조 설계

 

기업 내부 DB
OLTP(Online Transaction Processing) 거래 단위의 데이터 처리
OLAP(Online Analytical Processing) 데이터 분석을 통한 정보 제공
EAI(Enterprise Application Intergration) 기업의 여러 서비스를 중앙에서 관리
KMS(Knowledge Management System) 모든 지식을 통합하여 문제 해결 능력을 향상시킴
SCM(Supply Chain Management) 공급망 관리
ERP(Enterprise Resource Planning) 경영 자원 통합 관리
BI(Business Intelligence) 기업의 의사결정 프로세스
RTE(Real Time Enterprise) 정보를 실시간으로 통합 및 전달하여 신속한 대응

 

DB 종류
관계형 DB(RDB) 데이블 저장, 정형 데이터 (MySQL, MariaDB, Oracle, DB2 등)
NoSQL 비정형, 대용량 데이터 (CouchDB, MongoDB, Redis, HBase, Cassandra 등)

 

데이터 웨어하우스 구성요소
ETL 추출 Extraction, 변환 Transform, 적재 Load
ODS Operational Data Store 추출한 데이터 임시저장

 

데이터 웨어하우스 특징
주체 지향성 분석 목적을 설정
데이터 통합 일관화 된 형식으로 저장
시계열성 히스토리를 가진 데이터
비휘발성 수시로 변화하지 않음

 

DW와 DL
DW(데이터 웨어하우스) 분산된 정형 데이터를 공통의 형식으로 변환해 관리하는 집합소
DL(데이터 레이크) 정형, 비정형을 막론한 다양한 형태의 로 데이터를 모은 집합소, 여러 데이터 모델링에 대응 가능

2. 데이터의 가치와 미래

2.1. 빅데이터의 이해

3V
Volume 데이터의 양
Variety 데이터의 다양성
Velocity 생성 및 처리 속도
그 외: Visualization, Variability, Value, Veracity, Volatility, Validity 등

 

빅데이터의 출현 배경
데이터의 양적 증가, 산업계 변화, 학계 변화, 관련 기술 발전
관련 기술 클라우드 컴퓨팅, CRM, 5G, IoT, 인터넷 확산, 모바일 생태계 확산, 스마트폰 보급 확대, SNS 확대 등

 

빅데이터가 만들어내는 변화 *전후양상
표본조사 → 수조사
사전처리 → 사처리
질 →
인과관계 → 관관계

 

2.2. 데이터의 가치와 미래

빅데이터 가치 산정이 어려운 이유 *활가분
데이터 용 방식 누가, 언제, 어떻게, 어디서 활용하는지 모름
가치 출 방식 기존에 없던 새로운 가치를 창출함
석 기술의 발전 분석 기술에 따라 가치 없는 데이터가 가치 있는 데이터가 될 수 있음

 

빅데이터 활용에 필요한 3요소 *인자기
력, 원(데이터),

 

빅데이터 활용 기술
연관 규칙 학습 변인 간 상관 관계, 장바구니 분석, 상품 추천
유형 분석 범주 분류
회귀 분석 독립변수와 종속변수, 변인 간 관계
유전 알고리즘 최적화 문제, 효율
머신러닝 데이터로부터 찾은 규칙을 활용해 예측
텍스트 마이닝 자연어 처리(스태밍, 코퍼스, 토큰화, 임베딩)
감정분석 비정형 데이터 마이닝, 텍스트 파일로부터 감정을 분석
소셜 네트워크 분석 사회 관계망 분석, 소셜 관계 파악(연결•근접•매개•아이겐벡터 중심성)

 

위기 요인과 통제 방안
사생활 침해 제공자의 동의 → 사용자의 책임
책임 원칙 훼손 결과 기반 책임 원칙 고수
데이터 오용 알고리즘 접근 허용, 알고리즈미스트

 

개인정보 비식별화 기술
데이터 마스킹 형식 유지, 식별할 수 없는 값으로 대체
가명 처리 다른 값으로 변경
총계 처리 총합 또는 평균 사용
데이터 값 삭제 데이터 값 일부 삭제
데이터 범주화 범위로 제공
* 가명 처리된 데이터는 동의 없이 통계, 과학적 연구, 공익적 기론 보존을 위해 활용될 수 있음

 

프라이버시 보호 모델
k-익명성 같은 값이 존재하게 하여 다른 정보로 결합 불가능하게 함
i-다양성 민감한 정보의 다양성을 높임
t-근접성 민감한 정보의 분포를 낮춤

 

2.3. 데이터 사이언스

데이터 사이언스 구성 요소, 요구 역량
하드 스킬 Analytics 수학, 통계, 분석학, 머신러닝 등
It 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 고성능 컴퓨팅 등
소프트 스킬 비즈니스 분석 창의적 사고, 호기심, 커뮤니케이션, 시각화, 스토리텔링 등

 

가치 패러다임 변화 *Digital C A mera
Digitalization(디지털화) - Connection(연결) - Agency(관리)

 

'자격증 > ADSP' 카테고리의 다른 글

[ADSP] 3과목_통계 분석  (1) 2025.11.02
[ADSP] 3과목_R기초와 데이터 마트  (0) 2025.10.27
[ADSP] 2과목  (0) 2025.10.27

1. 일제 통치 방식

1.1. 무단통치

조선총독부, 헌병경찰, 조선태형령

조선교육령(연한 4년), 토지조사사업, 회사령(회사 설립 시 허가 필요), 한국인 신문 폐간

 

1.2. 문화통치(민족분열통치)

한글 신문 허용, 제 2차 조선교육령(연한 6년)

조선사 편수회 설치, 치안 유지법, 산미 증식 계획(단작화), 회사 신고제(+관세 폐지) 

 

1.3. 민족말살통치

황국신민서사, 창씨개명, 궁성 요배, 내선일체 강조, 일선동조론, 언론통제(조선/동아 폐간)

국가 총동원법, 병참 기지화, 국민 징용령, 여자 정신 근로령, 농촌진흥운동, 남면북양, 금속 및 식량 공출

조선 사상범 보호 관찰령, 조선 사상범  예방 구금령

청구 학회

 

*교육령: (무) 4년, (문) 6년

*농업: (문) 산미증식계획, (민) 농촌진흥운동, 금속 및 식량 공출

*연구: (문) 조선사 편수회, (민) 청구 학회

*탄압: (무) 태형령, 헌병경찰, (문) 치안 유지법, (민) 조선 사상범 보호 관찰령•예방 구금령

 

2. 저항

1.1. 무단통치

1.1.1. 독립운동 기지

서간도 신민회, 삼원보, 경학사, 신흥 무관 학교, 서로 군정서
북간도 한인집단촌(용정촌, 명동촌), 서전서숙 명동 학교, 간민회, 대종교 중광단-북로 군정서
연해주 신한촌, 권업회, 권업신문, 대한 광복군-대한 국민 의회
상하이 신한 청년당, 파리 강화 회의 김규식
미국 대한인 국민회(안창호), 중앙 총회, 하와이 박용만 대조선 국민군단

 

1.1.2. 국내 항일 비밀 결사

독립 의군부(복벽주의) 임병찬, 고종 밀명, 국권 반환 요구서 발송 계획
대한 광복회(공화정) 대구, 박상진, 의병+애국 계몽, 군자금 모금, 친일파 처단

 

1.1.3. 주요 사건

파리 강화 회의 윌슨 민족 자결 주의 → 김규식 독립 청원서, 1919, 도쿄 2.8 독립선언
3.1 운동 1919, 고종 인산일, 태화관, 탑골공원
태화관: 민족 대표 33인 독립 선언서 낭독
비폭력 → 폭력 (제암리•고주리 학살)
결과: 대한민국 임시정부 수립, 일제 통치 방식 변화(무단 → 문화), 중국 5.4운동에 영향

 

1.1.4. 대한민국 임시정부

수립 1919, 상하이에 수립
조직 삼권분립, 이승만 대통령
활동 연통제, 교통국, 독립 공채, 의연금 모금, 독립신문, 임시 사료 편찬 위원회(한•일 관계 사료집), 군무부, 미국 워싱턴 구미 위원부
국민 대표 회의 (1923) 독립운동 방향 논의 → 창조파(신채호) vs 개조파(안창호) → 침체
1920년대 이승만 탄핵(국제 연맹 위임 통치 청원 책임), 내각 책임제 개편
1930년대 김구의 한인 애국단 조직, 이봉창•윤봉길 의거
1940년대 충칭 정착, 한국 광복군, 삼균주의 기초 건국 강령 발표, 대일선전 포고, 주석•부주석제, 국내 진공 작전 준비

 

1.2. 무단통치

1.2.1. 민족운동

실력 양성 물산 장려 운동 조만식, 평양, 일본 상품 배격, 근검저축, 금주, 단연, 토산품
민립 대학 설립 이상재, 조선 민립 대학 기성화, 한민족 1천만이 한 사람 1원씩 모금 운동, 실패
→ 일제 경성 제국 대학 설립
문맹 퇴치 운동 조선일보 주도, 한글 교재, 문자 보급 운동
농민•노동 단체 조직 조선 노농(노동/농민으로 분화) 총동맹
소작 쟁의 암태도 소작 쟁의
노동 쟁의 원산 총파업
신간회 배경 중국 국•공 합작, 3부 통합 운동, 자치론민족주의 분열), 치안 유지법(연대 모색, 정우회 선언)
창립 비타협적 민족주의+사회주의
활동 광주 학생 항일 운동 지원, 강연회 개최, 최대 규모 민족 운동 단체
대중 학생운동 6.10 만세운동: 순종 인산일 → 민족주의 사회주의 연대 계기
광주 학생 항일 운동 → 신간회 지원 → 전국 확대 → 3.1운동 이후 최대 규모
소년 운동 천도교 소년회, 방정환, 김기전, 어린이날 제정, 잡지
여성 운동 근우회(신간회 자매단체)
형평 운동 백정, 진주, 조선 형평사, 차별 철폐 주장

 

1.2.2. 의열단 의열 투쟁

결성 김원봉, 만주, 일제 요인 암살
활동 신채호 '조선 혁명 선언' 활동 지침, 김익상(조선 총독부), 김상옥(종로 경찰서), 김지섭(도쿄 궁성), 나석주(동양 척식 주식회사, 은행)
변화 항일 무장 투쟁으로 전환→황푸 군관 학교 훈련, 조선 혁명 간부 학교 설립, 민족 혁명당 결성에 영향

 

1.2.3. 민족 문화 수호

국어, 문학 조선어 연구회, 가갸날, 잡지 '한글'
민족주의 사학 신채호: 조선상고사, 조선사연구초, 낭가사상
박은식: 한국통사, 한국독립운동지혈사, 국혼 강조
영화 나운규: 아리랑

 

1.2.4. 국외 무장 독립 전쟁

봉오동 전투 대한 독립군(홍범도), 연합 부대
청산리 전투 훈춘 사건 조작, 만주, 대규모 일본군, 북로 군정서(김좌진)+대한 독립군+의민단+신민단, 백운평, 어랑촌
시련 간도 참변(마을 무차별 학살), 대한 독립군단 조직 → 자유시 이동 → 자유시 참변(러시아 무장 해제 요구)
재정비 3부(참/정/신) 성립: 만주 귀환
3부 통합 운동: 미쓰야 협정으로 활동 위축 → 국민부/혁신의회로 재편

 

1.3. 민족말살통치

1.3.1. 한인 애국단 의열 투쟁

결성 김구, for 임시 정부 활성화
활동 이봉창: 도쿄, 일왕 폭살 시도
윤봉길: 상하이 홍커우, 일본군 전승 기념식장 폭탄 투척
영향 중국 국민당 정부의 지원 계기

 

1.3.2. 무장 독립 전쟁

한•중 연합 작전 배경 만주사변/만주국 → 중국 반일 감정 → 항일 연합 전선
한국 독립군 북만주 혁신 의회 → 한국 독립당, 지청천+중국 호로군, 쌍성보, 대전자령 전투
조선 혁명군 남만주 국민부 → 조선 혁명당, 양세봉+중국 의용군, 영릉가, 홍경성 전투
동북 항일 연군 만주, 항일 연합 전선, 연합 부대
쇠퇴 한국 독립군 일부 중국 관내 이동, 조선 혁명군 양세봉 전사
중국 관내 운동 민족 혁명당 김원봉, 조소앙, 지청천 등의 연합
조선 민족 전선 연맹 사회주의 계열 연합
조선 의용대 창설: 우한, 김원봉, 조선 민족 전선 연맹의 군사조직, 중국 국민당 정부의 지원
분화: 조선 의용군/한국 광복군
의의: 중국 관내 결성 최초 한인 무장 부대

 

1.3.3. 민족 문화 수호

국어 조선어 학회 조선어 연구회 → 조선어 학회. 맞춤법 통일안, 우리말 큰사전 편찬 추진, 강제 해산
저항 시인 이육사(광야, 절정), 윤동주(유고시집 하늘과 바람과 별과 시)
국사 민족주의 정인보(조선사연구, 얼), 안재홍(조선학 운동, 여유당전서)
실증주의 랑케 사학, 이병도, 진단 학회, 진단 학보
사회 경제 유물 사관, 세계사 보편적 발전 법칙, 일제 식민 사관 정체성론 비판, 백남운(조선사회경제사, 조선봉건사회경제사)

 

1.3.4. 건국 준비

대한민국
임시 정부
재정비
이동 상하이 → 난징 → 우한 → 창사 → 충칭, 한국 광복 운동 단체 연합회 결성
체제 변화 한국 독립당(한국 국민당+한국 독립당+조선 혁명당)
주석 김구, 부주석 김규식
한국 광복군 대한민국 임시 정부 정규군. 총사령관 지청천
대일 선전 포고
김원봉 조선 의용대 세력 합류
미국 전량 정보국OSS과 협력하여 국내 진공 작전 준비
건국 강령 삼균주의. 건국 강령. 민주 공화정. 토지 개혁. 보통 선거 실시
조선 독립 동맹 중국 화북, 김두봉, 사회주의, 조선 의용군, 민주 공화국 수립/대기업 국유화 내용의 건국 강령 발표
조선 건국 동맹 국내, 여운형, 사회주의+민족주의, 민주 공화국, 조선 건국 준비 위원회로 개편

 

1. 흐름

1.1. 흥선대원군

1.1.1. 개혁

비변사 축소, 경복궁 중건(원납전, 당백전), 대전회통, 육조조례, 호포법, 사창제, 양전사업, 서원 철폐

 

1.1.2. 외세

(프)병인박해-(미)제너럴 셔먼호 사건-(프)병인양요-(독)오페르트 남연군 묘 도굴 사건-(미)신미양요

*병인앙요: 강화도, 양헌수(정족산성), 한성근(문수산성),외규장각 약탈

*신미양요: 강화도, 어재연(광성보), 초지진/덕진진 점령, 척화비 건립

 

최익현의 상소: 흥선대원군 → 고종

 

1.2. 강화도조약

1.2.1. 강화도조약

최초 근대적/불평등 조약

조선 자주국, 부산/원산/인천 개항, 해안측량권, 치외법권

 

1.2.2. 통리기무아문

별기군, (청)영선사, (일)조사시찰단, 2영 설치

 

1.3. 개혁 시도

*조미수호통상조약 체결: 치외법권, 최혜국 대우, 거주조정, 관세부과

 

1.3.1. 임오군란

구식 군인 차별 → 봉기 → 일본 공사관 습격, 명성황후 피신 → 흥선 재집권 → 청군 개입, 흥선 납치 →조청상민수륙무역장정/제물포 조약 체결

 

1.3.2. 갑신정변

급진개화파가 우정총국 개국 축하연에서 일으킴 → 14개조 개혁 정강 → 청군 개입 실패 → 급진개화파 일본 망명 → 한성 조약, 톈진 조약 체결

 

1.4. 갑오개혁

1.4.1. 동학농민운동

1차 동학농민운동: 고부-백산-황토-황룡-전주-전주 화약

집강소, 신분제 폐지, 토지균분, 과부재가 허용

 

2차 동학농민운동: 일본군 경복궁 점령-봉기-공주 우금치 전투 패배

 

1.4.2. 갑오개혁

1차 갑오개혁: 군국기무처, 신분제/과거제 폐지, 과부재가 허용, 홍법 14조, 도량형 통일, 은 본위제 실시, 재정 일원화(탁지아문)

2차 갑오개혁: 의정부 8아문, 내각 7부, 23부, 재판소 설치

 

*을미사변

 

1.5. 러일전쟁

1.5.1. 아관파천

독립협회, 광무개혁(구본-황제/원수부, 신참-지계/상공업, 무관학교), 만민/관민공동회

 

1.5.1. 일제의 국권 침탈

한일의정서: 군용지 사용권

1차한일협약: 고문정치(스티븐스, 메가타-금본)

2차한일협약: 통감정치

을사늑약: 외교권 박탈

한일신협약(정미7조약): 차관정치, 군대 해산

한국병합조약: 국권 강탈, 경술국치

 

 

+ Recent posts