일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- grad-cam
- login crawling
- BigQuery
- requests
- Counterfactual Explanations
- 상관관계
- API
- integrated gradient
- UDF
- flask
- API Gateway
- top_k
- Retry
- 유튜브 API
- 공분산
- airflow subdag
- correlation
- Airflow
- TensorFlow
- hadoop
- session 유지
- spark udf
- GenericGBQException
- youtube data
- tensorflow text
- GCP
- XAI
- subdag
- chatGPT
- gather_nd
- Today
- Total
데이터과학 삼학년
통계적 편향 (통계로 거짓말하기) 본문
통계적 편향 (통계로 거짓말하기)
- 통계가 탐정이라면 데이터는 단서에 해당함
- 분석된 결과에 대해서 편향은 없는지 경계하며 확인할 필요가 있음
선택 편향(Selection Bias)
- 엉터리 표본으로 인해 모집단에 대해 잘못된 결론에 이르게 되는 현상
- 모집단에 속하는 구성원 모두가 표본으로 추출될 확률이 동일하지 않다면, 그 표본을 사용한 결과로 얻은 결론에도 문제가 있을 것
- 소비자 조사를 실시할 경우, 평균 급여가 높은 지역과 낮은 지역이 있는데 이 둘 한지역만 선택해서 표본을 뽑게 될 경우, 모집단의 결과가 왜곡될 수 있음
- 정치도 마찬가지로 특정 지역마다 선호하는 정치색이 있기때문에 표본 추출 자체에서 왜곡이 일어날 수 있음
- 표본이 좋을때는 표본 크기가 클수록 오차 범위가 줄기 때문에 그 결과도 좋아지지만, 표본이 안좋을때는 표본 크기가 커질수록 그 결과는 더 안좋아질 것임
출판 편향(Publication Bias)
- 긍정적인 연구 결과는 부정적인 연구 결과보다 출판될 가능성이 높고, 그 결과 우리가 접하는 결과물이 왜곡될 수 있음
- 통계학에서는 반복되는 중요한 개념 가운데 하나는 특이한 결과가 이따금 우연히 발생한다는 사실
- 100개의 연구를 진행했을때 그중 한 연구에서만 비디오 게임과 병 발병률 사이에 연결고리를 찾고, 99개는 연관이 없다고 나옴 → 실제로 비디오 게임과 병 발병률사이는 관계가 없지만, 해당 연구가 흥미롭지 않다는 이유로 출판되지 않음 → 위 두 요인이 관계가 있다는 정보만 접한 우리는 정보 습득의 왜곡을 겪을 수 있음
- 실제로 접하게 되는 정보가 왜곡되었기 때문에 발생
- 학술지나 연구지가 긍정적인 결과에만 관심을 가져 출판되는 현상 → 긍정 출판 편향
기억 편향(Recall Bias)
- 기억을 통해 항상 좋은 데이터가 얻어지는 것은 아님
- 기억자체에 구조적으로 결함이 있을 수 있음
- 어떤 실험군을 대상으로 병을 진단한 그룹과 정상으로 진단한 그룹이 있을때, 실제 이 사람들의 식습관은 동일했음에도 불구하고, 식습관에 대해 조사하면 병을 진단받은 사람들은 병을 일으킬만한 식단을 위주로 대답하는 결과가 있었음
- 횡단 연구보다 종단 연구가 선호되는 이유
> 종단 연구 : 특정 사람에 대해 조사를 할때 5세때 조사를 하고, 10년뒤 15세때 같은 사람을 대상으로 조사 (표본의 시간 변화를 확인)
> 횡단 연구 : 모든 데이터가 한 시점에 수집. 5세 사람을 뽑고, 15세 사람을 한번에 뽑아서 조사
생존 편향(Survivorship Bias)
- 표본의 관찰 대상중 일부 혹은 다수가 탈락하여 남아 있는 표본의 구성이 바뀌어 전체 분석결과에 영향을 미치는 현상
- 가령 반 평균 성적이 작년에 비해 올랐다고 할때, 실제로 하위권 성적을 가진 표본의 일부가 이탈해서 성적이 오른것으로 착각할 수 있음
- 실제로 시장보다 실적이 좋지 않으면서도 실적이 좋아보이게 하기 위해 실적이 좋지 않았던 상품은 폐쇄하는 케이스도 있음
건강한 피험자 편향(Healthy User Bias)
- 비타민을 규칙적으로 섭취하는 사람들이 건강할 가능성이 높은 이유는 그들이 비타민을 규칙적으로 챙겨 먹는 부류의 사람이기 때문임 → 비타민 자체로 효과가 있다는 것과는 별개의 문제
- 비타민을 챙겨먹는 부류의 사람들은 실제로 규칙적인 운동이나 건강식단을 위주로 먹는 사람일 확률이 높음
참조
- 벌거벗은 통계학
'Statistical Learning' 카테고리의 다른 글
구조방정식(SEM ; structural equation modeling) 파이썬 코드 (0) | 2023.03.21 |
---|---|
Simpson's paradox (심슨의 역설) (0) | 2023.03.04 |
이중차분법 (Difference In Difference) (0) | 2022.08.22 |
분산분석 (ANOVA : ANalysis Of VAriance) (0) | 2022.07.14 |
Chi-Square Distribution (카이제곱분포) (0) | 2022.06.03 |