샘플링 (Sampling)
샘플링이란, 모집단의 데이터에서 최대한 모집단과 유사한 일부 데이터를 추출하는 과정이다.
데이터 샘플링 방법은 크게 확률적 샘플링, 비확률적 샘플링으로 구분할 수 있다.
확률적 샘플링 : 무작위 샘플링
1. 단순 샘플링 (Simple Random Sampling)
- 모집단에서 단순 무작위로 샘플을 추출하는 방법 (각 데이터가 뽑힐 확률이 동일)
2. 층화 샘플링 (Stratified Random Sampling)
- 모집단을 몇 개의 그룹으로 나누어 각 그룹에서 무작위로 n개씩 추출하는 방법
ex) 행정구역으로 나눠 각 행정구역에서 표본 추출
3. 계통 샘플링 (Systematic Sampling)
- 모집단에 있는 데이터들에게 1~n개의 번호를 임의로 매긴 다음, 일정 간격마다 데이터를 추출하는 방법
ex) 시계열 데이터의 대표값을 샘플링하는데 주로 이용
4. 집락/군집 샘플링 (Cluster Sampling)
- 모집단을 여러개의 Cluster로 부분 집단으로 분할하고, 군집 중 하나 or 여러개의 군집을 선정해서
선정된 군집의 전체 데이터를 사용
ex) 행정구역 몇개를 선정해 해당 데이터를 모두 사용
비확률적 샘플링 : 사전에 표본 선정 확률을 모르는 상태로 추출 -> 사람의 주관적인 의도가 개입
1. 편의 샘플링 (Convenience Sampling)
- 데이터를 수집하기 좋은 시점이나 위치를 선정하여 샘플링 (통계적 추론 할 수 없음)
2. 판단 샘플링 (Purpose Sampling)
- 목적에 가장 적합한 대상이라고 생각하는 대상을 선택
- 주관적인 목적에 적합한 데이터를 샘플링 --> 모집단에 대한 대표성이 떨어짐
3. 할당 샘플링 (Quota Sampling)
- 모집단을 세그먼트로 구분하여 각 세그먼트에 표본 수를 나타내는 쿼타를 할당
- 세그먼트는 주제와 관련된 특성이 비슷해야하며 세그먼트 간 거의 다르게 모집단을 나눔 (층별 샘플링과 유사)
www.scribbr.com/methodology/sampling-methods/