데이터과학 삼학년

통계적 편향 (통계로 거짓말하기) 본문

Statistical Learning

통계적 편향 (통계로 거짓말하기)

Dan-k 2022. 9. 5. 19:34
반응형

통계적 편향 (통계로 거짓말하기)

- 통계가 탐정이라면 데이터는 단서에 해당함

- 분석된 결과에 대해서 편향은 없는지 경계하며 확인할 필요가 있음

 

선택 편향(Selection Bias)

- 엉터리 표본으로 인해 모집단에 대해 잘못된 결론에 이르게 되는 현상

- 모집단에 속하는 구성원 모두가 표본으로 추출될 확률이 동일하지 않다면, 그 표본을 사용한 결과로 얻은 결론에도 문제가 있을 것

- 소비자 조사를 실시할 경우, 평균 급여가 높은 지역과 낮은 지역이 있는데 이 둘 한지역만 선택해서 표본을 뽑게 될 경우, 모집단의 결과가 왜곡될 수 있음

- 정치도 마찬가지로 특정 지역마다 선호하는 정치색이 있기때문에 표본 추출 자체에서 왜곡이 일어날 수 있음

- 표본이 좋을때는 표본 크기가 클수록 오차 범위가 줄기 때문에 그 결과도 좋아지지만, 표본이 안좋을때는 표본 크기가 커질수록 그 결과는 더 안좋아질 것임

 

출판 편향(Publication Bias)

- 긍정적인 연구 결과는 부정적인 연구 결과보다 출판될 가능성이 높고, 그 결과 우리가 접하는 결과물이 왜곡될 수 있음

- 통계학에서는 반복되는 중요한 개념 가운데 하나는 특이한 결과가 이따금 우연히 발생한다는 사실

- 100개의 연구를 진행했을때 그중 한 연구에서만 비디오 게임과 병 발병률 사이에 연결고리를 찾고, 99개는 연관이 없다고 나옴 → 실제로 비디오 게임과 병 발병률사이는 관계가 없지만, 해당 연구가 흥미롭지 않다는 이유로 출판되지 않음 → 위 두 요인이 관계가 있다는 정보만 접한 우리는 정보 습득의 왜곡을 겪을 수 있음

- 실제로 접하게 되는 정보가 왜곡되었기 때문에 발생

- 학술지나 연구지가 긍정적인 결과에만 관심을 가져 출판되는 현상 → 긍정 출판 편향

 

기억 편향(Recall Bias)

- 기억을 통해 항상 좋은 데이터가 얻어지는 것은 아님

- 기억자체에 구조적으로 결함이 있을 수 있음

- 어떤 실험군을 대상으로 병을 진단한 그룹과 정상으로 진단한 그룹이 있을때, 실제 이 사람들의 식습관은 동일했음에도 불구하고, 식습관에 대해 조사하면 병을 진단받은 사람들은 병을 일으킬만한 식단을 위주로 대답하는 결과가 있었음 

- 횡단 연구보다 종단 연구가 선호되는 이유

> 종단 연구 : 특정 사람에 대해 조사를 할때 5세때 조사를 하고, 10년뒤 15세때 같은 사람을 대상으로 조사 (표본의 시간 변화를 확인)

> 횡단 연구 : 모든 데이터가 한 시점에 수집. 5세 사람을 뽑고, 15세 사람을 한번에 뽑아서 조사

 

생존 편향(Survivorship Bias)

- 표본의 관찰 대상중 일부 혹은 다수가 탈락하여 남아 있는 표본의 구성이 바뀌어 전체 분석결과에 영향을 미치는 현상

- 가령 반 평균 성적이 작년에 비해 올랐다고 할때, 실제로 하위권 성적을 가진 표본의 일부가 이탈해서 성적이 오른것으로 착각할 수 있음

- 실제로 시장보다 실적이 좋지 않으면서도 실적이 좋아보이게 하기 위해 실적이 좋지 않았던 상품은 폐쇄하는 케이스도 있음

 

건강한 피험자 편향(Healthy User Bias)

- 비타민을 규칙적으로 섭취하는 사람들이 건강할 가능성이 높은 이유는 그들이 비타민을 규칙적으로 챙겨 먹는 부류의 사람이기 때문임 → 비타민 자체로 효과가 있다는 것과는 별개의 문제

- 비타민을 챙겨먹는 부류의 사람들은 실제로 규칙적인 운동이나 건강식단을 위주로 먹는 사람일 확률이 높음

 

 

참조

- 벌거벗은 통계학

 

벌거벗은 통계학(리커버 에디션) | 찰스 윌런 - 교보문고

벌거벗은 통계학(리커버 에디션) | 데이터를 꿰뚫어 보는 직관의 힘, 통계학!『벌거벗은 통계학』은 미국의 경제경영 전문 사이트 ‘800-CEO-READ’가 선정한 최고의 경제서 100선에 이름을 올린 《

product.kyobobook.co.kr

 

728x90
반응형
LIST
Comments