Statistical Learning

분산분석 (ANOVA : ANalysis Of VAriance)

Dan-k 2022. 7. 14. 19:57
반응형

ANOVA(분산분석)

- 3개 이상의 모집단(population)의 평균이 같은지 분석하는 가설검정 방법

- 기존 t-test는 2개의 모집단간 평균이 같은지 분석하는 가설검정이었다면, ANOVA는 3개 이상의 모집단에 대해 평균이 같은지 보는 것으로 one-way, two-way에 따라 다중 종속변수의 관계까지 고려할 수 있음

- F-statistics를 통해 가설검정 --> 정규분포의 제곱의 합은 카이제곱 분포 --> 카이제곱분포는 f통계량으로 분석(F = t-value^2)

- 통계량을 구하는 식 자체가 error인데 곧 분산과 같아서, 분산 분석이라는 표현 사용

 

ANOVA(분산분석) 개념

- 결국, level간 분산이 level내 분산보다 크다면 영가설을 기각시키는 것으로 생각하면 됨

- f-통계량이 크다는 건 모집단간 평균의 차이가 있음을 의미함

- SSA (between) > SSE (within)

>> 즉 표본간 평균의 차이와 표본내 평균과의 차이를 비교하는 방법으로 식 자체가 분산과 같음

 

Formula Used

Sums of squares Formula

Mean squares Formula

F Formula

 

반응형

ANOVA 매트릭스

 

참조

 

F-value의 의미와 분산분석 - 공돌이의 수학정리노트

 

angeloyeo.github.io

 

728x90
반응형
LIST