1. 통계의 이해
1.1. 통계 개요
| 확률적 표본추출 방법 | |
| 단순 랜덤 추출법 | 무작위 추출 |
| 계통 추출법 | 번호를 부여하고 일정한 간격으로 추출 |
| 집락(군락) 추출법 | 여러 군락으로 구분하고 한 군락을 선택 - 집단 내 이질적 |
| 층화 추출법 | 여러 군락으로 구분하고 각 군락에서 추출(비례/불비례) - 군락 간 이질적 |
| 복원•비복원 추출 | 복원: 표본으로 뽑힌 데이터가 다시 모집단으로 비복원: 한 번 뽑힌 데이터는 모집단에서 제외 |
| 비확률적 표본추출 방법 | |
| 편의 추출법 | 연구자 편한대로 |
| 의도적 추출법 | 연구자가 정한 기준대로 |
| 할당 추출법 | 특정 기준으로 나누고 그 군락에서 할당된만큼 |
| 눈덩이 추출법 | 응답자 추천 |
| 자기 선택 추출법 | 응답자가 스스로 선택 |
| 척도 | ||||||
| 질적 척도 | 명목 척도 | 범주 | 성별 | |||
| 순서 척도 | 범주 | 순서 | 신용도 | |||
| 양적 척도 | 등간 척도 | 범주 | 순서 | 상대적 크기 | 온도 | |
| 비율 척도 | 범주 | 순서 | 상대적 크기 | 절대적 크기(0 존재) | 신장 | |
| 통계 종류 | |
| 기술 통계 | 표본 자체의 속성이나 특징 파악에 중점(기술 통계량: 최솟값, 최댓값, 중위수 등) |
| 추리 통계 | 모집단의 특성 추정에 중점 |
1.2. 확률과 확률분포
| 중심경향성 측면 | |
| 산술평균 | 일반적 개념: 모든 값 합산 후 개수로 나눔 |
| 기하평균 | 비율적 증가율: 모듭 값 곱하고 n 제곱근을 구함 |
| 조화평균 | 비율 계산: 역수의 산술평균을 구하고 다시 역수를 취함 |
| 중앙값 | - |
| 최빈값 | - |
| 분산 정도 측면 | |
| 분산 | 각 데이터가 평균과 얼마나 떨어져 있는지 |
| 표준편차 | 분산에 제곱근을 취한 값 |
| 사분위수 | 하위 25% 상위 75%의 중간 범위 |
| 관계 측면 | |
| 공분산 | 두 확률변수의 상관정도 공분산 = 0: 전혀 상관 없음 공분산 > 0: 양의 상관관계 공분산 < 0: 음의 상관관계 * 두 변수가 독립이면 공분산이 0이지만, 공분산이 0이라고 두 변수가 독립은 아닐 수 있음 |
| 상관계수 | 상관정도를 -1, 1 값으로 표현 |
| 첨도와 왜도 | ||
| 첨도 | - 뾰족한 정도 - 기준인 3에 가까울수록 정규분포모양 - 3에서 0을 빼기도 함 |
![]() |
| 왜도 | - 비대칭 정도 - 0에 가까울수록 정규분포 모양 - 왜도가 양수면 꼬리가 오른쪽 ∴최빈값< 중앙값 < 평균값 - 왜도가 음수면 꼬리가 왼쪽 ∴평균값 < 중앙값 < 최빈값 |
|
![]() |
||
| 이산확률분포 *베이기음초포다 | |
| 이산 균등 분포 | 모든 값이 일정한 분포 |
| ex. 주사위의 각 면이 나오는 확률 | |
| 베르누이 분포 | 결과가 두 개 중 한 가지로 나타나는 베르누이 시행의 결과로 나타나는 분포 |
| ex. 앞면/뒷면, 성공/실패, 합격/불합격 | |
| 이항 분포 | n번의 베르누이 시행에서 k번 성공할 확률 |
| ex. 동전 10번 던져서 2번 앞면 나올 확률 | |
| 기하 분포 | 성공 확률이 p인 베르누이 시행에서 처음으로 성공할 때까지 시행횟수의 분포 |
| ex. 동전 10번 던져서 처음 앞면 나올 확률 | |
| 음이항 분포 | 성공 확률이 p인 베르누이 시행에서 k번 성공할 때까지 시행횟수의 분포 |
| ex. 앞면이 2번 나올 때까지 던진 횟수 | |
| 초기하 분포 | N개 중 비복원추출로 n번 추출했을 때 원하는 결과가 k번 나올 확률 |
| ex. 구슬 10개 중 5번 뽑았을 때 검정 구슬이 3개 나올 확률 | |
| 포아송 분포 | 단위 시간/공간에서 발생할 수 있는 사건의 발생 횟수 |
| ex. 하루 동안의 범죄 횟수, 5쪽 내 오타 횟수 | |
| 다항 분포 | n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률 |
| ex. 주사위를 10번 던져 각 면이 나올 확률 | |
| 연속확률분포 | |
| 균일 분포 | 모든 값이 같은 확률을 갖고 있는 분포 |
| 정규 분포 | - 확률 분포의 평균 분포를 근사한 분포 - 중심극한정리: 모집단 분포에 상관없이 표본 크기가 30개 이상이면 표본분포가 정규분포를 이룸 |
| 표준 정규 분포 | 평균이 0, 표준편차가 1인 정규분포 |
| t - 분포 | - 정규분포보다 꼬리가 두꺼운 분포 - 표본이 30개 이하인 작은 집단에서 주로 사용 |
| 카이제곱 분포 | - 독립적 정규분포를 따르는 변수들의 제곱합으로 구성된 분포 - 두 집단 간 동질성, 단일 집단 모분산 검정에 사용 |
| F 분포 | - 두 개의 서로 다른 카이제곱 분포의 비율 - 두 집단의 분산 동질성 검정에 사용 |
1.3. 추정과 가설검정
| 추정 | ||
| 점추정 | 모수를 특정 값이라고 추정 | • 추정량의 조건 *불효충일 - 불편성: 추정값과 모수값 차이의 기댓값이 0 - 효율성: 추정량이 최소의 분산을 가질수록 효율적 - 충족성: 추정량이 모집단 정보를 최대한 반영 - 일치성: 표본 크기가 클수록 추정량이 모수에 가까워짐 |
| 구간추정 | - 모수를 특정 구간이라고 추정 - 신뢰수준 95%, 99%를 주로 사용 |
- 모분산을 아는 경우: z 검정 - 모분산을 모르는 경우: t 검정 |
| 가설검정 | ||
| 가설 | 귀무가설(H0) | 일반적인 가설 |
| 대립가설(H1) | 증명하려는 가설 | |
| 오류 | 1종 오류(α) | 귀무가 참인데 거짓이라고 결정하는 오류 |
| 2종 오류(β) | 귀무가 거짓인데 참이라고 결정하는 오류 | |
| 검정통계량 | 귀무의 참거짓을 판단할 수 있는 값 | |
| 기각역 | 검정통계량이 기각역 내에 있으면 기각 | |
| 유의수준 | 1종 오류 허용 한계 | |
| 유의확률 | 귀무가설을 지지하는 정도 - 유의확률 > 유의수준: 귀무 기각 불가 - 유의확률 < 유의수준: 귀무 기각 가능 |
|
| 비모수 검정 | |
| 모수의 분포에 대해 어떠한 가정도 하지 않는 검정 | |
| • 모수 검정 | • 비모수 검정 |
| - 등간척도, 비율척도 - 평균 - 피어슨 상관계수 - T- test, one way anova 등 |
- 명목척도, 서열척도 - 중앙값 - 스피어만 순위상관계수 - 크순스부부연프(크리스컬, 순위합, 스피어만, 부호, 부호순위, 연속성, 프리드만) |
2. 기초통계
| t - 검정 | |
| 일 표본 t - 검정 | 하나의 모집단의 평균 값을 특정값과 비교 |
| 단측(~ 보다 크다, 작다), 양측 (~이다, ~아니다) | |
| 이 표본 t - 검정 | 서로 독립적인 두 집단의 모평균의 값이 동일한지 검정 |
| 단측(~가 ~보다 크다, 작다), 양측(두 집단이 같다, 다르다) | |
| 대응 표본 t - 검정 | 동일한 대상의 두 가지 관측치를 비교(ex. 전후 비교) |
| 분산분석(ANOVA) | |
| 세 개 이상의 모집단 사이의 평균을 비교 | |
| 가정사항: 정규성(정규분포 따름), 등분산성(동일한 분산을 가짐), 독립성(서로 영향을 주지 않음) | |
| 일원분산분석 | 독립변수와 종속변수가 한 개 |
| 이원분산분석 | 독립변수의 수가 두 개 이상일 때 |
| - 독립변수 간 교호작용 O → 반복이 있는 실험 - 독립변수 간 교호작용 X → 반복이 없는 실험 |
|
| 교차분석 | |
| 범주형 자료 간의 관계를 알아볼 때 사용(카이제곱 검정통계량) | |
| 적합도 검정 | 관측값(관측도수)이 예상값(기대도수)과 일치하는가? (귀무: 두 분포가 일치함) |
| 독립성 검정 | 두 변수가 독립적인가? (상관관계의 강도는 알 수 없음) |
| 동질성 검정 | 관측값들이 범주 내에서 비슷하게 나타나는가? |
| 상관분석 | |
| 두 변수 간의 선형적 관계가 존재하는가? | |
| 피어슨 상관분석 | - 가정사항: 두 변수가 정규분포를 따름 - 양적 척도, 연속형 변수, 선형관계 |
| 스피어만 상관분석 | - 서열 척도, 순서형 변수, 비선형적관계 - 두 변수가 선형관계가 아니더라도 계수가 ±1이 될 수 있음 |
3. 회귀분석
| 회귀분석 | ||
| 개념 | 독립변수들이 종속변수에 얼마나 영향을 미치는가? | |
| 종류 | 단순회귀 | 1개의 독립변수와 종속변수 |
| 다중회귀 | k개의 독립변수와 종속변수 | |
| 다항회귀 | 독립변수와 종속변수가 2차 함수 이상의 관계 | |
| 가정 *선분정독 |
선형성 | 독립변수와 종속변수는 선형적임 |
| 등분산성 | 분산이 같음(=잔차들이 고르게 분포함) | |
| 정규성 | 잔차항이 정규분포 형태임 | |
| 독립성 | 잔차와 독립변수의 값이 독립적임 | |



| 회귀분석모형의 적합성 | ||
| 회귀모형의 유의성 | F - 검정, p - value | F 통계량: p값과 반비례, 상관관계와 비례 |
| 회귀계수의 유의성 | t - 검정, p - value | t 통계량:p값과 반비례, 상관관계와 비례 |
| 모형의 설명력 | 데이터의 분포가 회귀선에 밀접하게 분포하는가? | |
| 결정계수 R² | 단순선형회귀 R² = SSR/SST |
|
| 수정 결정계수 | 다중회귀분석 adjusted R² = 1 - (n-1)(1-R²)/(n-p-q) |
|

| 결과 해석 | |
| 변수 | - 종속변수(height) - 독립변수(age, no_siblings) |
| 회귀모형의 유의성 | 유의미(1.658e-09) |
| 회귀계수의 유의성 | - 유의미(age: 4.34e-10) - 무의미(no_siblings: 0.851) |
| 모델의 설명력 | 98% 이상 설명(0.9863) |
| 자유도 | - 회귀(2) - 잔차(9) -사용 데이터(12 = 2+9+1) |
| 회귀식 | Y = 0.63516Xage - 0.01137Xno_siblings + 64.95872 |
| 다중공선성 | |
| 개념 | 독립변수 간 상관관계를 가지는 것 *독립성 위배 문제 |
| 진단 | 결정계수 R²이 커 설명력이 높지만, 각 독립변수의 P값이 커 개별 인자가 유의하지 않은 경우 분산팽창요인(VIF)=1/(1- 결정계수 R²) > 10 ∴다중공선성O |
| 문제 해결법 | - 변수 제거 - 주성분 개수 선택(스크리플롯) - 차원 축소(주성분분석, 선형판별분석, t - 분포 확률적 임베딩, 특잇값 분해) |
| 최적 회귀방정식 | ||
| 종속변수에 유의미한 영향을 미칠 것으로 예상되는 독립변수를 선택하는 과정 | ||
| 성능지표 | AIC | - 변수의 수만큼 패널티 - 단점: 표본이 커질 때 부정확 |
| BIC | - AIC의 단점 보완 - AIC보다 더 큰 패널티 |
|
| 멜로우 Cp | 최소자승법 사용 | |
| 변수선택법 | 부분집합법(임베디드) | 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정 |
| 전진선택법 | 설명력이 가장 높은 변수부터 하나씩 추가 | |
| 후진제거법 | 설명력이 가장 낮은 변수부터 하나씩 제거 | |
| 단계별 방법 | 전진선택법+후진선택법 | |
| 정규화 선형회귀 | |
| 회귀분석에서 과적합되어 계수의 크기가 과도하게 증가하는 것을 방지하기 위해 계수의 크기를 제한 | |
| 라쏘 | L1 규제: 가중치들의 절댓값의 합을 최소화 |
| 릿지 | L2 규제: 가중치들의 제곱합을 최소화 |
| 엘라스틱넷 | 라쏘+릿지 |
4. 다변량 분석
| 다차원 척도법(MDS) | ||
| 객체 간 거리 정보의 근접성을 시각화 | ||
| 특징 | - 유사성/비유사성을 측정하여 데이터를 축소 - x/y축 해석 불가 |
|
| 측도 | stress 척도 | 0~1 값 0.05 이내면 우수한 적합도 |
| 종류 | 계량적 MDS | - 구간척도, 비율척도 - 유클리디안 거리 행렬 |
| 비계량적 MDS | - 서열척도 - 거리속성값으로 변환하여 사용 |
|
| 주성분분석(PCA) | |
| 상관성이 높은 변수들의 선형 결합으로 차원을 축소하여 주성분을 생성 | |
| 방법 | 손실이 가장 작은, 즉 분산이 가장 큰 축이 첫번째 주성분 |
| 평균 고윳값 방법 | 고유 벡터의 크기인 고윳값들의 평균을 구한 뒤, 고윳값이 평균보다 작은 주성분을 제거 |
| scree plot | 주성분 개수 선택에 도움이 되는 그래프(고윳값이 1근처, 수평을 이루기 전 단계로 선택) |
| biplot | 첫 번째 주성분과 두 번째 주성분을 축으로 하는 그래프 |
5. 시계열 분석
5.1. 시계열 분석
| 시계열 분석 |
| 일정 시간 간격으로 기록된 자료들에 대해 특성을 파악하고 미래를 예측하는 분석 |
| 날씨 에측, 주식 예측, 판매 예측 등 |
5.2 정상성
| 정상성 조건 | |
| 일정한 평균 | - 모든 시점에 대해 평균이 일정 - 차분을 통해 정상화(현 시점 자료 값 - 전 시점 자료 값) |
| 일정한 분산 | - 모든 시점에 대해 분산이 일정 - 변환을 통해 정상화(지수 혹은 로그 취함) |
| 시차에만 의존하는 공분산 | - 시차에만 의존하고 특정 시점에 의존하지 않음 - t 시점과 t + s 시점의 공분산 = t 시점과 t - s 시점의 공분산 |
| 정상화 방법 | |
| 이동평균법 | 일장 기간의 평균 |
| 지수평활법 | 최근 데이터일수록 큰 가중치 부여 |
| 그 외 | 차분, 변환(지수, 로그, Box-Cox 등) |
5.3. 시계열 모형
| 백색잡음 |
| 현재의 시점이 이전 시점과의 상관관계가 존재하지 않는, 즉 공분산과 자기공분산이 모두 0인 시계열 자료 |
| 정규분포를 따를 경우 가우시안 백색잡음, 평균이 0인 경우 오차항 |
| 자기상관계수 | |
| 자기상관함수 | 자료가 시간에 의존하지 않고 무작위성을 띠는지 확인 |
| 부분자기상관함수 | 두 시게열 확률변수 간에 다른 시점의 확률변수 영향력을 통제하고 상관관계만 보여줌 |
| 시계열 모형 | |
| 자기회귀모형(AR) | 부분자기상관함수 사용 |
| 이동평균모형(MA) | 자기상관함수 사용 |
| 자기회귀누적이동평균모형(ARIMA) | 자기회귀모형+이동평균모형 ARIMA(p,d,q) = ARIMA(AR, 차분, MA) |
5.4. 분해 시계열
| 분해 시계열 | |
| 추세요인 | 장기간 일정한 방향으로 상승 또는 하락 |
| 계졀요인 | 일정한 주기를 갖는 상하 반복의 규칙적인 변동 |
| 순환요인 | 원인을 알 수 없는 상하 반복의 불규칙한 변동 |
| 불규칙요인 | 설명하지 못하는 오차, 예측 불가능한 변동 |
'자격증 > ADSP' 카테고리의 다른 글
| [ADSP] 3과목_R기초와 데이터 마트 (0) | 2025.10.27 |
|---|---|
| [ADSP] 2과목 (0) | 2025.10.27 |
| [ADSP] 1과목 (0) | 2025.10.25 |

