[ADSP] 3과목_통계 분석 :: 코딩용

[ADSP] 3과목_통계 분석

eu_ak 2025. 11. 2. 02:03

2025. 11. 2. 02:03

1. 통계의 이해

1.1. 통계 개요

확률적 표본추출 방법
단순 랜덤 추출법	무작위 추출
계통 추출법	번호를 부여하고 일정한 간격으로 추출
집락(군락) 추출법	여러 군락으로 구분하고 한 군락을 선택 - 집단 내 이질적
층화 추출법	여러 군락으로 구분하고 각 군락에서 추출(비례/불비례) - 군락 간 이질적
복원•비복원 추출	복원: 표본으로 뽑힌 데이터가 다시 모집단으로 비복원: 한 번 뽑힌 데이터는 모집단에서 제외

비확률적 표본추출 방법
편의 추출법	연구자 편한대로
의도적 추출법	연구자가 정한 기준대로
할당 추출법	특정 기준으로 나누고 그 군락에서 할당된만큼
눈덩이 추출법	응답자 추천
자기 선택 추출법	응답자가 스스로 선택

척도
질적 척도	명목 척도	범주				성별
질적 척도	순서 척도	범주	순서			신용도
양적 척도	등간 척도	범주	순서	상대적 크기		온도
양적 척도	비율 척도	범주	순서	상대적 크기	절대적 크기(0 존재)	신장

통계 종류
기술 통계	표본 자체의 속성이나 특징 파악에 중점(기술 통계량: 최솟값, 최댓값, 중위수 등)
추리 통계	모집단의 특성 추정에 중점

1.2. 확률과 확률분포

중심경향성 측면
산술평균	일반적 개념: 모든 값 합산 후 개수로 나눔
기하평균	비율적 증가율: 모듭 값 곱하고 n 제곱근을 구함
조화평균	비율 계산: 역수의 산술평균을 구하고 다시 역수를 취함
중앙값	-
최빈값	-

분산 정도 측면
분산	각 데이터가 평균과 얼마나 떨어져 있는지
표준편차	분산에 제곱근을 취한 값
사분위수	하위 25% 상위 75%의 중간 범위

관계 측면
공분산	두 확률변수의 상관정도 공분산 = 0: 전혀 상관 없음 공분산 > 0: 양의 상관관계 공분산 < 0: 음의 상관관계 * 두 변수가 독립이면 공분산이 0이지만, 공분산이 0이라고 두 변수가 독립은 아닐 수 있음
상관계수	상관정도를 -1, 1 값으로 표현

첨도와 왜도
첨도	- 뾰족한 정도 - 기준인 3에 가까울수록 정규분포모양 - 3에서 0을 빼기도 함
왜도	- 비대칭 정도 - 0에 가까울수록 정규분포 모양 - 왜도가 양수면 꼬리가 오른쪽 ∴최빈값< 중앙값 < 평균값 - 왜도가 음수면 꼬리가 왼쪽 ∴평균값 < 중앙값 < 최빈값

이산확률분포 *베이기음초포다
이산 균등 분포	모든 값이 일정한 분포
	ex. 주사위의 각 면이 나오는 확률
베르누이 분포	결과가 두 개 중 한 가지로 나타나는 베르누이 시행의 결과로 나타나는 분포
	ex. 앞면/뒷면, 성공/실패, 합격/불합격
이항 분포	n번의 베르누이 시행에서 k번 성공할 확률
	ex. 동전 10번 던져서 2번 앞면 나올 확률
기하 분포	성공 확률이 p인 베르누이 시행에서 처음으로 성공할 때까지 시행횟수의 분포
	ex. 동전 10번 던져서 처음 앞면 나올 확률
음이항 분포	성공 확률이 p인 베르누이 시행에서 k번 성공할 때까지 시행횟수의 분포
	ex. 앞면이 2번 나올 때까지 던진 횟수
초기하 분포	N개 중 비복원추출로 n번 추출했을 때 원하는 결과가 k번 나올 확률
	ex. 구슬 10개 중 5번 뽑았을 때 검정 구슬이 3개 나올 확률
포아송 분포	단위 시간/공간에서 발생할 수 있는 사건의 발생 횟수
	ex. 하루 동안의 범죄 횟수, 5쪽 내 오타 횟수
다항 분포	n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률
	ex. 주사위를 10번 던져 각 면이 나올 확률

연속확률분포
균일 분포	모든 값이 같은 확률을 갖고 있는 분포
정규 분포	- 확률 분포의 평균 분포를 근사한 분포 - 중심극한정리: 모집단 분포에 상관없이 표본 크기가 30개 이상이면 표본분포가 정규분포를 이룸
표준 정규 분포	평균이 0, 표준편차가 1인 정규분포
t - 분포	- 정규분포보다 꼬리가 두꺼운 분포 - 표본이 30개 이하인 작은 집단에서 주로 사용
카이제곱 분포	- 독립적 정규분포를 따르는 변수들의 제곱합으로 구성된 분포 - 두 집단 간 동질성, 단일 집단 모분산 검정에 사용
F 분포	- 두 개의 서로 다른 카이제곱 분포의 비율 - 두 집단의 분산 동질성 검정에 사용

1.3. 추정과 가설검정

추정
점추정	모수를 특정 값이라고 추정	• 추정량의 조건 *불효충일 - 불편성: 추정값과 모수값 차이의 기댓값이 0 - 효율성: 추정량이 최소의 분산을 가질수록 효율적 - 충족성: 추정량이 모집단 정보를 최대한 반영 - 일치성: 표본 크기가 클수록 추정량이 모수에 가까워짐
구간추정	- 모수를 특정 구간이라고 추정 - 신뢰수준 95%, 99%를 주로 사용	- 모분산을 아는 경우: z 검정 - 모분산을 모르는 경우: t 검정

가설검정
가설	귀무가설(H0)	일반적인 가설
	대립가설(H1)	증명하려는 가설
오류	1종 오류(α)	귀무가 참인데 거짓이라고 결정하는 오류
	2종 오류(β)	귀무가 거짓인데 참이라고 결정하는 오류
검정통계량	귀무의 참거짓을 판단할 수 있는 값
기각역	검정통계량이 기각역 내에 있으면 기각
유의수준	1종 오류 허용 한계
유의확률	귀무가설을 지지하는 정도 - 유의확률 > 유의수준: 귀무 기각 불가 - 유의확률 < 유의수준: 귀무 기각 가능

비모수 검정
모수의 분포에 대해 어떠한 가정도 하지 않는 검정
• 모수 검정	• 비모수 검정
- 등간척도, 비율척도 - 평균 - 피어슨 상관계수 - T- test, one way anova 등	- 명목척도, 서열척도 - 중앙값 - 스피어만 순위상관계수 - 크순스부부연프(크리스컬, 순위합, 스피어만, 부호, 부호순위, 연속성, 프리드만)

2. 기초통계

t - 검정
일 표본 t - 검정	하나의 모집단의 평균 값을 특정값과 비교
	단측(~ 보다 크다, 작다), 양측 (~이다, ~아니다)
이 표본 t - 검정	서로 독립적인 두 집단의 모평균의 값이 동일한지 검정
	단측(~가 ~보다 크다, 작다), 양측(두 집단이 같다, 다르다)
대응 표본 t - 검정	동일한 대상의 두 가지 관측치를 비교(ex. 전후 비교)

분산분석(ANOVA)
세 개 이상의 모집단 사이의 평균을 비교
가정사항: 정규성(정규분포 따름), 등분산성(동일한 분산을 가짐), 독립성(서로 영향을 주지 않음)
일원분산분석	독립변수와 종속변수가 한 개
이원분산분석	독립변수의 수가 두 개 이상일 때
	- 독립변수 간 교호작용 O → 반복이 있는 실험 - 독립변수 간 교호작용 X → 반복이 없는 실험

교차분석
범주형 자료 간의 관계를 알아볼 때 사용(카이제곱 검정통계량)
적합도 검정	관측값(관측도수)이 예상값(기대도수)과 일치하는가? (귀무: 두 분포가 일치함)
독립성 검정	두 변수가 독립적인가? (상관관계의 강도는 알 수 없음)
동질성 검정	관측값들이 범주 내에서 비슷하게 나타나는가?

상관분석
두 변수 간의 선형적 관계가 존재하는가?
피어슨 상관분석	- 가정사항: 두 변수가 정규분포를 따름 - 양적 척도, 연속형 변수, 선형관계
스피어만 상관분석	- 서열 척도, 순서형 변수, 비선형적관계 - 두 변수가 선형관계가 아니더라도 계수가 ±1이 될 수 있음

3. 회귀분석

회귀분석
개념	독립변수들이 종속변수에 얼마나 영향을 미치는가?
종류	단순회귀	1개의 독립변수와 종속변수
	다중회귀	k개의 독립변수와 종속변수
	다항회귀	독립변수와 종속변수가 2차 함수 이상의 관계
가정 *선분정독	선형성	독립변수와 종속변수는 선형적임
	등분산성	분산이 같음(=잔차들이 고르게 분포함)
	정규성	잔차항이 정규분포 형태임
	독립성	잔차와 독립변수의 값이 독립적임

회귀분석모형의 적합성
회귀모형의 유의성	F - 검정, p - value	F 통계량: p값과 반비례, 상관관계와 비례
회귀계수의 유의성	t - 검정, p - value	t 통계량:p값과 반비례, 상관관계와 비례
모형의 설명력	데이터의 분포가 회귀선에 밀접하게 분포하는가?
	결정계수 R²	단순선형회귀 R² = SSR/SST
	수정 결정계수	다중회귀분석 adjusted R² = 1 - (n-1)(1-R²)/(n-p-q)

결과 해석
변수	- 종속변수(height) - 독립변수(age, no_siblings)
회귀모형의 유의성	유의미(1.658e-09)
회귀계수의 유의성	- 유의미(age: 4.34e-10) - 무의미(no_siblings: 0.851)
모델의 설명력	98% 이상 설명(0.9863)
자유도	- 회귀(2) - 잔차(9) -사용 데이터(12 = 2+9+1)
회귀식	Y = 0.63516Xage - 0.01137Xno_siblings + 64.95872

다중공선성
개념	독립변수 간 상관관계를 가지는 것 *독립성 위배 문제
진단	결정계수 R²이 커 설명력이 높지만, 각 독립변수의 P값이 커 개별 인자가 유의하지 않은 경우 분산팽창요인(VIF)=1/(1- 결정계수 R²) > 10 ∴다중공선성O
문제 해결법	- 변수 제거 - 주성분 개수 선택(스크리플롯) - 차원 축소(주성분분석, 선형판별분석, t - 분포 확률적 임베딩, 특잇값 분해)

최적 회귀방정식
종속변수에 유의미한 영향을 미칠 것으로 예상되는 독립변수를 선택하는 과정
성능지표	AIC	- 변수의 수만큼 패널티 - 단점: 표본이 커질 때 부정확
	BIC	- AIC의 단점 보완 - AIC보다 더 큰 패널티
	멜로우 Cp	최소자승법 사용
변수선택법	부분집합법(임베디드)	모든 가능한 모델을 고려하여 가장 좋은 모델을 선정
	전진선택법	설명력이 가장 높은 변수부터 하나씩 추가
	후진제거법	설명력이 가장 낮은 변수부터 하나씩 제거
	단계별 방법	전진선택법+후진선택법

정규화 선형회귀
회귀분석에서 과적합되어 계수의 크기가 과도하게 증가하는 것을 방지하기 위해 계수의 크기를 제한
라쏘	L1 규제: 가중치들의 절댓값의 합을 최소화
릿지	L2 규제: 가중치들의 제곱합을 최소화
엘라스틱넷	라쏘+릿지

4. 다변량 분석

다차원 척도법(MDS)
객체 간 거리 정보의 근접성을 시각화
특징	- 유사성/비유사성을 측정하여 데이터를 축소 - x/y축 해석 불가
측도	stress 척도	0~1 값 0.05 이내면 우수한 적합도
종류	계량적 MDS	- 구간척도, 비율척도 - 유클리디안 거리 행렬
	비계량적 MDS	- 서열척도 - 거리속성값으로 변환하여 사용

주성분분석(PCA)
상관성이 높은 변수들의 선형 결합으로 차원을 축소하여 주성분을 생성
방법	손실이 가장 작은, 즉 분산이 가장 큰 축이 첫번째 주성분
평균 고윳값 방법	고유 벡터의 크기인 고윳값들의 평균을 구한 뒤, 고윳값이 평균보다 작은 주성분을 제거
scree plot	주성분 개수 선택에 도움이 되는 그래프(고윳값이 1근처, 수평을 이루기 전 단계로 선택)
biplot	첫 번째 주성분과 두 번째 주성분을 축으로 하는 그래프

5. 시계열 분석

5.1. 시계열 분석

시계열 분석

일정 시간 간격으로 기록된 자료들에 대해 특성을 파악하고 미래를 예측하는 분석

날씨 에측, 주식 예측, 판매 예측 등

5.2 정상성

정상성 조건
일정한 평균	- 모든 시점에 대해 평균이 일정 - 차분을 통해 정상화(현 시점 자료 값 - 전 시점 자료 값)
일정한 분산	- 모든 시점에 대해 분산이 일정 - 변환을 통해 정상화(지수 혹은 로그 취함)
시차에만 의존하는 공분산	- 시차에만 의존하고 특정 시점에 의존하지 않음 - t 시점과 t + s 시점의 공분산 = t 시점과 t - s 시점의 공분산

정상화 방법
이동평균법	일장 기간의 평균
지수평활법	최근 데이터일수록 큰 가중치 부여
그 외	차분, 변환(지수, 로그, Box-Cox 등)

5.3. 시계열 모형

백색잡음

현재의 시점이 이전 시점과의 상관관계가 존재하지 않는, 즉 공분산과 자기공분산이 모두 0인 시계열 자료

정규분포를 따를 경우 가우시안 백색잡음, 평균이 0인 경우 오차항

자기상관계수
자기상관함수	자료가 시간에 의존하지 않고 무작위성을 띠는지 확인
부분자기상관함수	두 시게열 확률변수 간에 다른 시점의 확률변수 영향력을 통제하고 상관관계만 보여줌

시계열 모형
자기회귀모형(AR)	부분자기상관함수 사용
이동평균모형(MA)	자기상관함수 사용
자기회귀누적이동평균모형(ARIMA)	자기회귀모형+이동평균모형 ARIMA(p,d,q) = ARIMA(AR, 차분, MA)

5.4. 분해 시계열

분해 시계열
추세요인	장기간 일정한 방향으로 상승 또는 하락
계졀요인	일정한 주기를 갖는 상하 반복의 규칙적인 변동
순환요인	원인을 알 수 없는 상하 반복의 불규칙한 변동
불규칙요인	설명하지 못하는 오차, 예측 불가능한 변동

'자격증 > ADSP' 카테고리의 다른 글

[ADSP] 3과목_R기초와 데이터 마트 (0)	2025.10.27
[ADSP] 2과목 (0)	2025.10.27
[ADSP] 1과목 (0)	2025.10.25

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바