일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- tensorflow text
- GenericGBQException
- requests
- Retry
- top_k
- UDF
- API Gateway
- Airflow
- airflow subdag
- GCP
- session 유지
- flask
- youtube data
- 공분산
- spark udf
- BigQuery
- hadoop
- Counterfactual Explanations
- 상관관계
- integrated gradient
- grad-cam
- correlation
- chatGPT
- XAI
- subdag
- login crawling
- 유튜브 API
- API
- TensorFlow
- gather_nd
- Today
- Total
데이터과학 삼학년
[기초통계] correlation의 종류 (연속형 변수, 범주형 변수) 상관관계 본문
상관계수 (correlation)의 종류에 대해 알아보고, 각 데이터의 종류에 맞는 상관관계 방법에 대해 소개한다.
먼저 두개 자료의 상관관계를 비교할때
크게 3가지 케이스로 나눌 수 있다.
1. 연속형 - 연속형
2. 범주형 - 범주형
3. 연속형 - 범주형
위 각 세가지 케이스에 대해 알맞는 correlation 방법을 살펴보자.
1. 연속형-연속형
연속형-연속형의 상관계수 범위는 -1 ~ 1 사이로 나타낼 수 있다
아래와 같이 크게 3가지 방법이 있다
Pearson correlation
- 연속형-자료가 정규분포임을 가정하는 모수적 추론 방법이다
- 위 방법은 자료간의 상관정도가 어느정도인지를 추론할 수 있는 장점이 있다
예) 국어점수와 영어점수간의 상관관계
Kendall correlation
- 순위척도 자료형에 대한 상관계수 추론 방법이다
- 비모수적 방법이기 때문에 자료의 분포가 정규분포를 따르지 않아도 사용할 수 있다
- 두 자료간의 상관도정도 보다는 한개 자료의 변수가 증가할 때 다른 자료의 변수가 증가하는지 감소하는지 정도를 보는 척도라 생각할 수 있다
예) 국어등수와 영어등수간의 관계
Spearman correlation
- kendall과 순위척도 자료간 상관관계를 파악할 수 있다.
- 비모수적 방법
- 한 변수가 증가할때 다른 변수가 증가하는지 감소하는지 정도만 봄
예) 국어등수와 영어등수간의 관계
2. 범주형-범주형
상관계수 범위는 0 ~ 1 사이로 나타낼 수 있다
Phi correlation
- 범주형 변수간 상관관계 파악
- 비교대상 범주 대상이 2개
예) 남/여 , O/X
Cramer's V
- 범주형 변수간 상관관계 파악
- 비교대상 범주 대상이 3개이상
예) 10대/20대/30대, 단독/연립/복합/아파트
3. 연속형-범주형
Point biserial correlation
- 두개변수중 하나는 범주형 변수이고 다른 하나는 연속형 변수일때 쓴다
예) 성별과 수학점수와의 상관관계
Biserial correlation
- 두개 변수중 하나는 명명척도이고 다른 하나는 연속변수
- 명명척도의 유목은 인위적 구분하는 이분변수
예) 우열반 편성여부와 중간고사 점수와의 상관관계
Polyserial correlation
- 두개의 변수중 하나는 명명척도이고 다른 하나는 연속변수
- 명명척도의 유목은 비인위적이며 3개 이상의 유목
예) 인종과 키와의 상관관계
선형적 상관관계와 비선형적 상관관계
- 선형 상관관계
ㄴ 두 변수가 서로 직선 형태의 관계를 가지는 경우 선형 상관관계
ㄴ 선형 상관관계는 Pearson 상관계수를 사용하여 측정
- 비선형 상관관계
ㄴ 두 변수가 서로 곡선 형태의 관계를 가지는 경우 비선형 상관관계
ㄴ 비선형 상관관계는 Spearman 상관계수나 Kendall Tau 상관계수를 사용하여 측정
참조
'Statistical Learning' 카테고리의 다른 글
[계량 경제학] 도구변수(Instrumental variable) (Feat. 2SLS) (1) | 2020.09.08 |
---|---|
Ridge VS Lasso regression, Visualized! (0) | 2020.08.14 |
[기초통계] Maximum Likelihood (0) | 2020.08.12 |
[기초통계] Probability vs Likelihood (0) | 2020.08.12 |
Imbalanced data approach (0) | 2020.08.10 |