일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- integrated gradient
- subdag
- 상관관계
- gather_nd
- login crawling
- requests
- airflow subdag
- top_k
- XAI
- correlation
- chatGPT
- flask
- youtube data
- TensorFlow
- API Gateway
- session 유지
- tensorflow text
- Retry
- spark udf
- GCP
- API
- 유튜브 API
- GenericGBQException
- 공분산
- grad-cam
- Airflow
- hadoop
- Counterfactual Explanations
- UDF
- BigQuery
- Today
- Total
목록Recommendation System (11)
데이터과학 삼학년
LLM을 활용한 추천 시스템: 넷플릭스 데이터셋 사례추천 시스템은 방대한 콘텐츠 속에서 사용자들이 적합한 항목을 찾을 수 있도록 돕는 중요한 역할을 하고 있습니다. 여러분이 이 글을 발견한 것도 추천 시스템 덕분일 가능성이 높습니다.기존의 추천 시스템은 주로 협업 필터링과 콘텐츠 기반 필터링에 의존해 왔습니다. 하지만 최근 등장한 **대규모 언어 모델(LLMs)**은 이 분야에 새로운 가능성을 열어주고 있습니다. 이번 글에서는 넷플릭스 데이터셋을 활용하여 LLM 기반 추천 시스템을 구축하는 과정을 소개하고, 이 기술이 추천 시스템을 어떻게 혁신하는지 알아보겠습니다. LLM이 추천 시스템에서 게임 체인저가 되는 이유LLM은 기존 추천 시스템과 비교해 여러 가지 독특한 강점을 제공합니다.1. 풍부한 세계 지..
1. MAB란 무엇인가?Multi-Armed Bandit(MAB) 문제는 여러 개의 슬롯 머신(팔을 당기는 밴딧) 중에서 어느 것을 선택해야 가장 높은 보상을 얻을 수 있는지 결정하는 문제입니다. 이 문제는 탐색(Exploration)과 활용(Exploitation) 사이의 균형을 잡는 것이 핵심입니다.주요 구성 요소팔(Arm): 선택 가능한 슬롯 머신 또는 행동.보상(Reward): 선택한 팔에서 얻는 결과(예: 클릭, 구매 등).목표: 보상의 합계를 최대화.MAB 문제는 A/B 테스트, 광고 배치, 콘텐츠 추천 등 다양한 실생활 문제에 응용됩니다.2. 탐색과 활용의 트레이드오프MAB의 가장 큰 도전 과제는 탐색과 활용 사이의 트레이드오프를 해결하는 것입니다.탐색(Exploration): 더 나은 팔을..
Learning to Rank (LTR) 개요목적: LTR(Learning to Rank) 모델은 대량의 데이터를 처리하면서 제한된 공간에 가장 관련성이 높은 항목을 최상단에 배치하는 것에 중점을 둔다. 이는 검색 엔진, 온라인 쇼핑몰의 상품 추천 등에서 사용특징: LTR 모델은 정확한 예측 값보다 항목들의 상대적 순서를 최적화하는 데 집중적용 분야: 검색 엔진, 상품 추천 등1. Pointwise LTR목적: 개별 항목의 특정 메트릭(예: 클릭 확률, 매출액 등)을 예측하여 순위를 매기는 것에 최적화.접근 방법:각 항목을 독립적으로 처리.항목별로 점수나 확률을 예측하고, 이 점수를 기준으로 정렬.대표 모델:로지스틱 회귀(Logistic Regression)서포트 벡터 머신(SVM)평가 방법: 일반적인 ..
1. Retrieval (검색자)역할: 사용자에게 추천할 후보 아이템을 빠르게 찾는 단계비유: 서점에서 수천 권의 책 중에서 취향에 맞을 가능성이 높은 100권을 골라내는 과정방법: 사용자의 간단한 선호 정보로 전체 아이템 중 관련성이 높은 것을 필터링특징: 대량의 데이터를 효율적으로 처리하며, 대략적인 후보군을 찾는 것이 목표2. Ranking (순위화)역할: Retrieval로 찾은 후보 아이템을 분석해 가장 적합한 순서로 정렬하는 단계비유: 서점에서 고른 100권의 책 중에서 가장 좋아할 가능성이 높은 순서로 정렬방법: 사용자의 상세한 선호, 아이템의 특성, 컨텍스트를 고려해 정확하게 순위를 매김특징: 소수의 아이템을 정밀하게 분석하고 최종 추천 리스트를 작성정리Retrieval: 대량의 데이터에서..
검색 및 추천 시스템의 성과를 평가하는 다양한 메트릭검색 엔진 및 추천 시스템의 성과를 평가하는 데에는 여러 메트릭이 사용 1. NDCG (Normalized Discounted Cumulative Gain)NDCG는 검색 결과의 랭킹 품질을 평가하는 메트릭으로, 관련성 점수와 위치에 따라 할인된 점수를 사용합니다.DCG 계산:\[DCG_p = \sum_{i=1}^{p} \frac{rel_i}{\log_2(i+1)}\]IDCG 계산:\[IDCG_p = \sum_{i=1}^{p} \frac{rel_{(i)}}{\log_2(i+1)}\]NDCG 계산:\[NDCG_p = \frac{DCG_p}{IDCG_p}\]여기서 ( rel_i )는 위치 ( i )에서의 관련성 점수, ( rel_{(i)} )는 이상적인 순..
NDCG (Normalized Discounted Cumulative Gain)- 정보 검색 시스템과 추천 시스템의 성과를 평가하는 데 있어, 단순히 클릭 수나 정확도만으로는 충분하지 않음- 사용자에게 제공되는 결과의 랭킹도 중요- NDCG (Normalized Discounted Cumulative Gain)는 이러한 랭킹의 품질을 평가하는 데 유용한 메트릭- NDCG는 검색 결과나 추천 목록에서 항목이 어떻게 랭킹되는지를 측정- 이 메트릭은 정확성과 랭킹 품질을 동시에 고려하며, 높은 순위에 더 많은 가중치를 부여Cumulative Gain (CG): 각 위치의 점수를 합산하여 얻은 총 점수.Discounted Cumulative Gain (DCG): 위치가 높을수록 중요도가 낮아지므로, 점수를 할인..
LightGBM Ranker: 고급 랭킹 모델을 활용한 순위 예측- 랭킹 문제는 검색 엔진, 추천 시스템, 광고 시스템 등 다양한 분야에서 중요- 데이터 포인트의 순서를 예측하는 이 문제는 분류나 회귀와는 다른 접근이 필요함 LightGBM Ranker- LightGBM은 Microsoft가 개발한 고성능 그라디언트 부스팅 프레임워크로, LightGBM Ranker는 그 중에서도 랭킹 문제를 해결하기 위해 설계된 모델- 랭킹 문제는 데이터 포인트를 특정 기준에 따라 정렬하는 문제로, 검색 결과 정렬, 추천 시스템, 클릭 예측 등 다양한 분야에서 활용 랭킹 문제 정의쿼리: 순위를 예측하고자 하는 개별 그룹을 의미합니다. 예를 들어, 검색 쿼리나 사용자 세션 등이 될 수 있습니다.아이템: 각 쿼리에 속하는 ..
Precision@K- Precision@K는 추천시스템이 얼마나 정확하게 추천을 했는지를 평가- 여기서 K는 추천된 아이템의 상위 몇 개를 고려할 것인지를 - 예를 들어, precision@5는 상위 5개의 추천 아이템 중에서 사용자가 선호하는 아이템이 얼마나 있는지를 측정 Recall@K- Recall@K는 추천시스템이 사용자가 선호하는 아이템을 얼마나 많이 찾아냈는지를 평가- 여기서도 K는 추천된 아이템의 상위 몇 개를 고려- 예를 들어, recall@5는 상위 5개의 추천 아이템 중에서 사용자가 실제로 좋아하는 모든 아이템 중 몇 개를 포함하고 있는지를 측정 계산 예시클릭한적 있는 item: [2, 4, 6, 8]모델 예측 결과 item: [3, 1, 2, 5, 6, 7, 8] -> 클릭할 확률이..