250x250
반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- Retry
- hadoop
- GenericGBQException
- spark udf
- API Gateway
- 상관관계
- integrated gradient
- API
- grad-cam
- airflow subdag
- tensorflow text
- subdag
- youtube data
- Counterfactual Explanations
- correlation
- chatGPT
- 유튜브 API
- GCP
- top_k
- XAI
- session 유지
- requests
- gather_nd
- BigQuery
- flask
- TensorFlow
- login crawling
- UDF
- Airflow
- 공분산
Archives
- Today
- Total
목록2024/03/04 (1)
데이터과학 삼학년
데이터 임베딩 최적의 차원 결정 (How to determine the embedding size?)
데이터 임베딩의 최적 차원 결정 머신러닝에서 범주형 변수를 다룰 때 적절한 임베딩 차원을 선택하는 것은 매우 중요 'min(50, num_categories/2)'이라는 흔한 규칙이 있지만, 100개까지의 범주에 대해서만 적용되며, 100개를 넘어가면 어떻게 해야 할까요? 이제 최적 임베딩 차원을 결정하기 위한 데이터 기반 방식을 살펴보겠다! 1000개 이하의 범주에 대한 제안 1000개 이하의 num_categories에 대해 제안되는 공식은 num_embeddings = min(500, num_categories/2) - 이 제안은 특정 차원에서 무작위 분포된 N 벡터의 직교성을 확인하기 위한 것 - 벡터를 정규화하고 점곱을 계산하여 평균과 표준 편차를 관찰 가능 - 아래 그래프에서 볼 수 있듯이, ..
카테고리 없음
2024. 3. 4. 12:00