250x250
반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 상관관계
- correlation
- tensorflow text
- GCP
- gather_nd
- flask
- 유튜브 API
- XAI
- API Gateway
- Counterfactual Explanations
- chatGPT
- Retry
- GenericGBQException
- login crawling
- hadoop
- Airflow
- 공분산
- subdag
- spark udf
- API
- session 유지
- requests
- UDF
- grad-cam
- youtube data
- top_k
- BigQuery
- integrated gradient
- airflow subdag
- TensorFlow
Archives
- Today
- Total
데이터과학 삼학년
배깅과 페이스팅 (Bagging, pasting) 본문
반응형
Bagging (Bootsrap Agregating)
- 훈련세트에서 중복을 허용(Bootstrap)하여 샘플링하는 방식
Pasting
- 훈련세트에서 중복을 허용하지 않고 샘플링하는 방법
배깅과 페이스팅 모두 훈련세트의 서브셋을 무작위로 구성하여 다양한 알고리즘을 학습시키고 각 알고리즘의 결과를 종합하여 최종 결과를 내놓는 방식(앙상블)이다.
앙상블 결과 산정 (일반적)
> 분류 : 통계적 최빈값
> 회귀 : 평균값
예시 코드
sklearn 의 BaggingClassifier(BaggingRegressor)로 배깅과 페이스팅을 모두 구성가능하다.
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
bag_clf = BaggingClassifier(
DecisionTreeClassifier(),
n_estimators=500,
max_samples = 100, bootstrap=True, n_jobs=1
)
bag_clf.fit(X_train, y_train)
y_pred = bag_clf.predict(X_test)
###
# bootstrap=False # -> pasting
# bootstrap=True # -> bagging
배깅과 일반 모델의 성능 비교
부트스트래핑은 각 예측기가 학습하는 서브셋에 다양성을 증가 시킴
> 배깅이 페이스팅보다 편향이 조금 더 높음
> 다양성 추가로 인해 예측기 간 상관관계를 줄이므로 앙상블의 분산 감소
728x90
반응형
LIST
'Machine Learning' 카테고리의 다른 글
텐서플로 함수와 그래프(tf.function, autograph) (0) | 2021.07.12 |
---|---|
HDBSCAN vs DBSCAN (0) | 2021.07.08 |
한개의 모델로 성격이 비슷한 여러개의 모델을 대체해보자 (0) | 2021.03.05 |
Autoencoder 를 이용한 차원 축소 (latent representation) (0) | 2021.03.03 |
PCA (Principal Component Analysis) 종류 (0) | 2021.02.02 |
Comments