일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- correlation
- gather_nd
- 유튜브 API
- 상관관계
- 공분산
- tensorflow text
- requests
- UDF
- top_k
- youtube data
- airflow subdag
- XAI
- grad-cam
- TensorFlow
- API Gateway
- integrated gradient
- BigQuery
- GCP
- GenericGBQException
- Retry
- API
- spark udf
- chatGPT
- subdag
- Airflow
- hadoop
- flask
- login crawling
- Counterfactual Explanations
- session 유지
- Today
- Total
목록전체 글 (411)
데이터과학 삼학년
Learning to Rank (LTR) 개요목적: LTR(Learning to Rank) 모델은 대량의 데이터를 처리하면서 제한된 공간에 가장 관련성이 높은 항목을 최상단에 배치하는 것에 중점을 둔다. 이는 검색 엔진, 온라인 쇼핑몰의 상품 추천 등에서 사용특징: LTR 모델은 정확한 예측 값보다 항목들의 상대적 순서를 최적화하는 데 집중적용 분야: 검색 엔진, 상품 추천 등1. Pointwise LTR목적: 개별 항목의 특정 메트릭(예: 클릭 확률, 매출액 등)을 예측하여 순위를 매기는 것에 최적화.접근 방법:각 항목을 독립적으로 처리.항목별로 점수나 확률을 예측하고, 이 점수를 기준으로 정렬.대표 모델:로지스틱 회귀(Logistic Regression)서포트 벡터 머신(SVM)평가 방법: 일반적인 ..
1. Retrieval (검색자)역할: 사용자에게 추천할 후보 아이템을 빠르게 찾는 단계비유: 서점에서 수천 권의 책 중에서 취향에 맞을 가능성이 높은 100권을 골라내는 과정방법: 사용자의 간단한 선호 정보로 전체 아이템 중 관련성이 높은 것을 필터링특징: 대량의 데이터를 효율적으로 처리하며, 대략적인 후보군을 찾는 것이 목표2. Ranking (순위화)역할: Retrieval로 찾은 후보 아이템을 분석해 가장 적합한 순서로 정렬하는 단계비유: 서점에서 고른 100권의 책 중에서 가장 좋아할 가능성이 높은 순서로 정렬방법: 사용자의 상세한 선호, 아이템의 특성, 컨텍스트를 고려해 정확하게 순위를 매김특징: 소수의 아이템을 정밀하게 분석하고 최종 추천 리스트를 작성정리Retrieval: 대량의 데이터에서..
검색 및 추천 시스템의 성과를 평가하는 다양한 메트릭검색 엔진 및 추천 시스템의 성과를 평가하는 데에는 여러 메트릭이 사용 1. NDCG (Normalized Discounted Cumulative Gain)NDCG는 검색 결과의 랭킹 품질을 평가하는 메트릭으로, 관련성 점수와 위치에 따라 할인된 점수를 사용합니다.DCG 계산:\[DCG_p = \sum_{i=1}^{p} \frac{rel_i}{\log_2(i+1)}\]IDCG 계산:\[IDCG_p = \sum_{i=1}^{p} \frac{rel_{(i)}}{\log_2(i+1)}\]NDCG 계산:\[NDCG_p = \frac{DCG_p}{IDCG_p}\]여기서 ( rel_i )는 위치 ( i )에서의 관련성 점수, ( rel_{(i)} )는 이상적인 순..
NDCG (Normalized Discounted Cumulative Gain)- 정보 검색 시스템과 추천 시스템의 성과를 평가하는 데 있어, 단순히 클릭 수나 정확도만으로는 충분하지 않음- 사용자에게 제공되는 결과의 랭킹도 중요- NDCG (Normalized Discounted Cumulative Gain)는 이러한 랭킹의 품질을 평가하는 데 유용한 메트릭- NDCG는 검색 결과나 추천 목록에서 항목이 어떻게 랭킹되는지를 측정- 이 메트릭은 정확성과 랭킹 품질을 동시에 고려하며, 높은 순위에 더 많은 가중치를 부여Cumulative Gain (CG): 각 위치의 점수를 합산하여 얻은 총 점수.Discounted Cumulative Gain (DCG): 위치가 높을수록 중요도가 낮아지므로, 점수를 할인..
LightGBM Ranker: 고급 랭킹 모델을 활용한 순위 예측- 랭킹 문제는 검색 엔진, 추천 시스템, 광고 시스템 등 다양한 분야에서 중요- 데이터 포인트의 순서를 예측하는 이 문제는 분류나 회귀와는 다른 접근이 필요함 LightGBM Ranker- LightGBM은 Microsoft가 개발한 고성능 그라디언트 부스팅 프레임워크로, LightGBM Ranker는 그 중에서도 랭킹 문제를 해결하기 위해 설계된 모델- 랭킹 문제는 데이터 포인트를 특정 기준에 따라 정렬하는 문제로, 검색 결과 정렬, 추천 시스템, 클릭 예측 등 다양한 분야에서 활용 랭킹 문제 정의쿼리: 순위를 예측하고자 하는 개별 그룹을 의미합니다. 예를 들어, 검색 쿼리나 사용자 세션 등이 될 수 있습니다.아이템: 각 쿼리에 속하는 ..
Precision@K- Precision@K는 추천시스템이 얼마나 정확하게 추천을 했는지를 평가- 여기서 K는 추천된 아이템의 상위 몇 개를 고려할 것인지를 - 예를 들어, precision@5는 상위 5개의 추천 아이템 중에서 사용자가 선호하는 아이템이 얼마나 있는지를 측정 Recall@K- Recall@K는 추천시스템이 사용자가 선호하는 아이템을 얼마나 많이 찾아냈는지를 평가- 여기서도 K는 추천된 아이템의 상위 몇 개를 고려- 예를 들어, recall@5는 상위 5개의 추천 아이템 중에서 사용자가 실제로 좋아하는 모든 아이템 중 몇 개를 포함하고 있는지를 측정 계산 예시클릭한적 있는 item: [2, 4, 6, 8]모델 예측 결과 item: [3, 1, 2, 5, 6, 7, 8] -> 클릭할 확률이..
소프트웨어 개발에서 생산성과 일관성을 높이는 방법- 소프트웨어 개발의 빠르게 변화하는 세계에서 효율성과 일관성은 매우 중요 -> 이러한 목표를 달성하기 위해 Boilerplate 템플릿을 사용- 경험이 풍부한 개발자든, 이제 막 시작한 개발자든, Boilerplate 템플릿을 이해하고 활용하는 것은 생산성을 크게 높이고 프로젝트 전반에 걸쳐 코드베이스의 일관성을 보장!! Boilerplate 템플릿- Boilerplate 템플릿, 흔히 Boilerplate 코드라고도 불리며, 여러 곳에서 거의 수정 없이 반복되는 코드 섹션- 이러한 템플릿은 특정 작업을 수행하거나 프로젝트를 설정하는 표준 방법을 제공- "Boilerplate"라는 용어는 원래 철강 산업에서 구조물을 만드는 데 사용된 사전 제작된 철판을..
깃허브 PR 리뷰: 컨벤셔널 커멘트 사용!!!- 코드 리뷰는 소프트웨어 개발의 중요한 부분- 리뷰 과정을 체계적으로 관리하기 위해 컨벤셔널 커멘트 방법을 사용 컨벤셔널 커멘트- 컨벤셔널 커멘트는 코드 리뷰 시 일관성 있는 피드백을 제공하기 위해 사용되는 코멘트 작성 방법- 이는 코드 리뷰를 더 이해하기 쉽고, 추적하기 쉽게 만들어 줌- 일반적으로 사용되는 컨벤셔널 커멘트nit: 사소한 수정 사항이나 제안.question: 이해를 돕기 위해 질문.suggestion: 대안적인 접근 방법이나 개선사항 제안.issue: 잠재적인 문제나 버그 지적.praise: 잘 작성된 코드에 대한 칭찬.깃허브에서 PR 리뷰 시작하기PR 열기: 리뷰할 PR을 클릭하여 오픈파일 변경 사항 확인: "Files changed" 탭..