250x250
반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- airflow subdag
- spark udf
- 유튜브 API
- XAI
- youtube data
- hadoop
- correlation
- tensorflow text
- session 유지
- 상관관계
- BigQuery
- top_k
- GCP
- subdag
- API Gateway
- Counterfactual Explanations
- flask
- login crawling
- integrated gradient
- chatGPT
- Airflow
- Retry
- 공분산
- TensorFlow
- GenericGBQException
- API
- grad-cam
- requests
- gather_nd
- UDF
Archives
- Today
- Total
데이터과학 삼학년
네거티브 샘플링 본문
반응형
1. 네거티브 샘플링의 개념
- 대규모 데이터 학습에서 연산량을 줄이고 효율성을 높이는 기법.
- 모든 데이터를 사용하지 않고 일부만 선택해 학습.
- 주요 활용 분야: 자연어 처리(NLP), 딥러닝.
- 대표 사례: Word2Vec.
2. 네거티브 샘플링의 작동 원리
- Skip-gram 모델
- 중심 단어(center word)에서 주변 단어(context word)를 예측.
- 예: "고양이가 책상 위에 있다" 문장에서 중심 단어 "고양이"를 기준으로 "책상", "위에" 등을 예측.
- 문제점
- 어휘 크기가 10만 개라면, 중심 단어마다 10만 개의 확률 분포를 계산해야 함.
- 엄청난 연산량을 요구.
- 해결: 네거티브 샘플링 도입
- 긍정 샘플(positive sample): 중심 단어와 실제 관련 있는 단어.
- 네거티브 샘플(negative sample): 나머지 단어 중 일부를 무작위 선택.
- 모델은 긍정 샘플과 네거티브 샘플을 구분하도록 학습.
3. 네거티브 샘플링의 수학적 접근
- 손실 함수(Loss Function):
- $v_c$: 중심 단어 벡터.
- $v_o$: 긍정 샘플 벡터.
- $v_i$: 네거티브 샘플 벡터.
- $P_n(w)$: 네거티브 샘플링 분포.
- $k$: 네거티브 샘플 개수.
- 역할:
- 중심 단어와 긍정 샘플 간 관계 강화.
- 중심 단어와 네거티브 샘플 간 관계 약화.
4. 네거티브 샘플링의 장점
- 연산 효율성 증가: 일부 데이터만 사용해 연산량 감소.
- 대규모 데이터셋 처리 가능: 방대한 데이터도 빠르게 학습.
- 간단한 구현: 기존 모델에 쉽게 통합 가능.
5. 네거티브 샘플링의 한계
- 샘플 품질 의존성: 무작위 선택된 네거티브 샘플이 부적절할 가능성.
- 균형 문제: 샘플 수가 너무 적거나 많으면 학습 성능 저하.
- 도메인 특화 데이터: 적절한 샘플 분포 정의 어려움.
6. 네거티브 샘플링 활용 사례
- Word2Vec
- 구글 개발.
- Skip-gram + 네거티브 샘플링 결합.
- 효율적 단어 임베딩 생성.
- GloVe
- Stanford NLP 연구.
- 대규모 텍스트 데이터 처리.
- 추천 시스템
- 사용자-아이템 상호작용 데이터 학습.
- 실제 상호작용하지 않은 아이템을 네거티브 샘플로 사용.
7. 결론
- 핵심 장점
- 연산량 감소.
- 빠른 학습.
- 대규모 데이터 효율적 처리.
- 중요성
- 자연어 처리, 추천 시스템 등에서 널리 활용.
- 적절한 네거티브 샘플 선택과 균형 유지 필요.
참고 자료
728x90
반응형
LIST
'Statistical Learning' 카테고리의 다른 글
범주형 변수 상관관계?! -> cross tab with chi square (1) | 2024.11.13 |
---|---|
카파 통계량 (Kappa-statistics) (0) | 2024.02.22 |
범주형 변수와 연속형 변수간 상관관계(categorical numerical correlation) (0) | 2023.09.25 |
SMOTENC :: oversampling with categorical variable (0) | 2023.07.25 |
smoothing 기법 (0) | 2023.07.11 |
Comments