일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- API Gateway
- BigQuery
- top_k
- GenericGBQException
- session 유지
- youtube data
- chatGPT
- Counterfactual Explanations
- integrated gradient
- UDF
- grad-cam
- requests
- API
- tensorflow text
- subdag
- spark udf
- Airflow
- GCP
- flask
- hadoop
- 상관관계
- TensorFlow
- 공분산
- gather_nd
- airflow subdag
- 유튜브 API
- login crawling
- correlation
- XAI
- Retry
- Today
- Total
데이터과학 삼학년
[기초 통계] Q-Q Plot (feat. shapiro-test) 본문
Q-Q Plot
데이터의 정규성을 파악할때, QQ plot을 이용해 확인할수 있다.
이론적으로 데이터가 정규성을 따를때 quantiles 값을 x 축
실제 데이터들의 quantiles 값을 y 축
표현하게 된다.
이렇게 되면 데이터가 완전한 정규분포를 이루게 되면
아래와 같은 그림이 나오게 된다.
데이터에 skewed 가 있을때 Q-Q Plot
Figure. 1. 분위수 대 분위수 플롯(Q-Q plot, quantile-quantile plot)[각주:1]
⑴ (참고) 분위수(quantile)
① 분위수 함수 : 누적분포함수 Φ의 역함수
-
정의역 :{x | 0 ≤ x ≤ 1}
-
치역 : 관심 있는 집단의 통계량
② 구간의 개수에 따라 100분위수(percent), 4분위수(quartile) 등이 존재
⑵ 정의 : 다음과 같은 점 (x, y)들의 집합
①{(x, y) | Φ = P(X < x) = P(Y < y)}
② x는 표준정규분포의 통계량이고 y는 표본집단의 통계량임을 유의
⑶ 사례 분석
① 정규분포를 따르는 경우 : Q-Q plot은 직선에 가까움
② 오른쪽으로 skew된 경우
-
(참고) skewness < 0
-
발상 : 기존 정규분포에서 각 점들을 오른쪽으로 잡아끄는 것을 상기
-
각 점들의 확률변수가 커지므로 Q-Q plot 상의 각 점이 직선 위로 향함
③ 왼쪽으로 skew된 경우
-
(참고) skewness > 0
-
발상 : 기존 정규분포에서 각 점들을 왼쪽으로 잡아끄는 것을 상기
-
각 점들의 확률변수가 작아지므로 Q-Q plot 상의 각 점이 직선 아래로 향함
출처: https://nate9389.tistory.com/1742 [정빈이의 공부방]
QQ-Plot 외 데이터의 정규성을 확인하는 방법
Shapiro=test 샤피로 윌크 검정
샤피로 윌크 검정Shapiro-Wilk Test은 표본이 정규 분포로부터 추출된 것인지 테스트하기 위한 방법이다. 검정은 shapiro.test( ) 함수를 사용하며 이때 귀무가설은 주어진 데이터가 정규 분포로부터의 표본이라는 것이다.
shapiro.test : 데이터가 정규 분포를 따르는지 샤피로 윌크 검정을 수행한다. 귀무가설은 정규 분포를 따른다는 것이다.
▼ 표 7-15 샤피로 윌크 검정
다음은 정규 분포를 따르는 1,000개의 난수를 발생시킨 뒤 이 숫자들이 정규 분포를 따르는지 샤피로 윌크 검정을 수행한 예다.
> shapiro.test(rnorm(1000))
Shapiro-Wilk normality test
data: rnorm(1000) W = 0.9974, p-value = 0.1052 |
p-value > 0.05이므로 데이터가 정규 분포를 따른다는 귀무가설을 기각할 수 없다.
즉 p-value가 클수록 데이터 정규분포를 따른다는 가정이 맞다고 볼 수 있다.
shapiro.test( ) 외에도 nortest 패키지에는
앤더스 달링 검정(Anderson-Darling Test)
피어슨 카이 제곱 검정(Pearson Chi-Square Test) 등을 사용해
정규성을 검정하는 다양한 함수가 있으니 참고하기 바란다.
'Statistical Learning' 카테고리의 다른 글
MLE vs OLS (0) | 2020.12.12 |
---|---|
[기초통계] 공분산과 상관계수 (covarience, correlation) (0) | 2020.12.07 |
큰 수의 법칙 (Law of Large Numbers (LoLN)), 중심극한의 정리 (Central Limit Theorem) (0) | 2020.11.17 |
Outliers & leverage (0) | 2020.11.06 |
[기초통계] 1종 오류와 2종 오류 (0) | 2020.11.05 |