250x250
반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- airflow subdag
- 유튜브 API
- spark udf
- requests
- gather_nd
- GCP
- session 유지
- 공분산
- API
- tensorflow text
- XAI
- Retry
- grad-cam
- API Gateway
- login crawling
- correlation
- Airflow
- Counterfactual Explanations
- hadoop
- BigQuery
- TensorFlow
- youtube data
- flask
- 상관관계
- integrated gradient
- top_k
- subdag
- GenericGBQException
- chatGPT
- UDF
Archives
- Today
- Total
데이터과학 삼학년
pandas stratified sampling (층화표본) 본문
반응형
샘플링을 하다 보면 단순한 랜덤샘플링이 아니라 label별로 일정한 비율로 샘플링하기를 원할때가 있다.
이를 층화샘플링이라고 하는데, pandas dataframe에서 이것을 하는 방법이 있다...(label 컬럼으로 groupby를 하는 것!!!)
랜덤 샘플링
random_sample = df.sample(frac=0.20)
)
random_sample.head()
층화 샘플링
- label별 20%로씩 샘플링
stratified_sample = df.groupby('<label column>').apply(
lambda x: x.sample(frac=0.20)
)
stratified_sample.head()
728x90
반응형
LIST
'Statistical Learning' 카테고리의 다른 글
SMOTENC :: oversampling with categorical variable (0) | 2023.07.25 |
---|---|
smoothing 기법 (0) | 2023.07.11 |
구조방정식(SEM ; structural equation modeling) 파이썬 코드 (0) | 2023.03.21 |
Simpson's paradox (심슨의 역설) (0) | 2023.03.04 |
통계적 편향 (통계로 거짓말하기) (0) | 2022.09.05 |
Comments