일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- chatGPT
- TensorFlow
- Counterfactual Explanations
- requests
- subdag
- Retry
- GCP
- session 유지
- Airflow
- API
- correlation
- 공분산
- spark udf
- 유튜브 API
- youtube data
- tensorflow text
- 상관관계
- airflow subdag
- BigQuery
- integrated gradient
- top_k
- API Gateway
- login crawling
- hadoop
- grad-cam
- XAI
- UDF
- flask
- GenericGBQException
- gather_nd
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년
NDCG (Normalized Discounted Cumulative Gain)- 정보 검색 시스템과 추천 시스템의 성과를 평가하는 데 있어, 단순히 클릭 수나 정확도만으로는 충분하지 않음- 사용자에게 제공되는 결과의 랭킹도 중요- NDCG (Normalized Discounted Cumulative Gain)는 이러한 랭킹의 품질을 평가하는 데 유용한 메트릭- NDCG는 검색 결과나 추천 목록에서 항목이 어떻게 랭킹되는지를 측정- 이 메트릭은 정확성과 랭킹 품질을 동시에 고려하며, 높은 순위에 더 많은 가중치를 부여Cumulative Gain (CG): 각 위치의 점수를 합산하여 얻은 총 점수.Discounted Cumulative Gain (DCG): 위치가 높을수록 중요도가 낮아지므로, 점수를 할인..
LightGBM Ranker: 고급 랭킹 모델을 활용한 순위 예측- 랭킹 문제는 검색 엔진, 추천 시스템, 광고 시스템 등 다양한 분야에서 중요- 데이터 포인트의 순서를 예측하는 이 문제는 분류나 회귀와는 다른 접근이 필요함 LightGBM Ranker- LightGBM은 Microsoft가 개발한 고성능 그라디언트 부스팅 프레임워크로, LightGBM Ranker는 그 중에서도 랭킹 문제를 해결하기 위해 설계된 모델- 랭킹 문제는 데이터 포인트를 특정 기준에 따라 정렬하는 문제로, 검색 결과 정렬, 추천 시스템, 클릭 예측 등 다양한 분야에서 활용 랭킹 문제 정의쿼리: 순위를 예측하고자 하는 개별 그룹을 의미합니다. 예를 들어, 검색 쿼리나 사용자 세션 등이 될 수 있습니다.아이템: 각 쿼리에 속하는 ..
Precision@K- Precision@K는 추천시스템이 얼마나 정확하게 추천을 했는지를 평가- 여기서 K는 추천된 아이템의 상위 몇 개를 고려할 것인지를 - 예를 들어, precision@5는 상위 5개의 추천 아이템 중에서 사용자가 선호하는 아이템이 얼마나 있는지를 측정 Recall@K- Recall@K는 추천시스템이 사용자가 선호하는 아이템을 얼마나 많이 찾아냈는지를 평가- 여기서도 K는 추천된 아이템의 상위 몇 개를 고려- 예를 들어, recall@5는 상위 5개의 추천 아이템 중에서 사용자가 실제로 좋아하는 모든 아이템 중 몇 개를 포함하고 있는지를 측정 계산 예시클릭한적 있는 item: [2, 4, 6, 8]모델 예측 결과 item: [3, 1, 2, 5, 6, 7, 8] -> 클릭할 확률이..
소프트웨어 개발에서 생산성과 일관성을 높이는 방법- 소프트웨어 개발의 빠르게 변화하는 세계에서 효율성과 일관성은 매우 중요 -> 이러한 목표를 달성하기 위해 Boilerplate 템플릿을 사용- 경험이 풍부한 개발자든, 이제 막 시작한 개발자든, Boilerplate 템플릿을 이해하고 활용하는 것은 생산성을 크게 높이고 프로젝트 전반에 걸쳐 코드베이스의 일관성을 보장!! Boilerplate 템플릿- Boilerplate 템플릿, 흔히 Boilerplate 코드라고도 불리며, 여러 곳에서 거의 수정 없이 반복되는 코드 섹션- 이러한 템플릿은 특정 작업을 수행하거나 프로젝트를 설정하는 표준 방법을 제공- "Boilerplate"라는 용어는 원래 철강 산업에서 구조물을 만드는 데 사용된 사전 제작된 철판을..

깃허브 PR 리뷰: 컨벤셔널 커멘트 사용!!!- 코드 리뷰는 소프트웨어 개발의 중요한 부분- 리뷰 과정을 체계적으로 관리하기 위해 컨벤셔널 커멘트 방법을 사용 컨벤셔널 커멘트- 컨벤셔널 커멘트는 코드 리뷰 시 일관성 있는 피드백을 제공하기 위해 사용되는 코멘트 작성 방법- 이는 코드 리뷰를 더 이해하기 쉽고, 추적하기 쉽게 만들어 줌- 일반적으로 사용되는 컨벤셔널 커멘트nit: 사소한 수정 사항이나 제안.question: 이해를 돕기 위해 질문.suggestion: 대안적인 접근 방법이나 개선사항 제안.issue: 잠재적인 문제나 버그 지적.praise: 잘 작성된 코드에 대한 칭찬.깃허브에서 PR 리뷰 시작하기PR 열기: 리뷰할 PR을 클릭하여 오픈파일 변경 사항 확인: "Files changed" 탭..
TABNET (Attentive Interpretable Tabular Learning)- 정형데이터에서 주로 XGBoost, CatBoost, LightGBM의 높은 성능을 보여주고 있음- 딥러닝 모델은 위에서 언급한 부스팅 계열의 모델보다 성능이 낮은 경우가 존재 앙상블 모델이 딥러닝 모델보다 선호되는 이유?!- 정형데이터는 Hyperplane경계를 가지는 Manifold라고 하는데 부스팅 모델은 이러한 Manifold에서 결정할때 더 효율적으로 작동- Tree기반의 모델은 학습이 빠르고 쉽게 개발 가능- Tree기반 모델은 높은 해석력을 가지고 있는 장점이 있고, 특성중요도도 구할수 있음 딥러닝 모델을 써야하는 이유- 성능을 더 높일 수 있음- 정형데이터와 비정형데이터를 함께 학습에 사용할 수 있음..

Uplift 모델링 - Uplift 모델링은 마케팅 및 광고 캠페인의 효과를 평가하고 최적화하기 위한 강력한 도구로 사용 - 이 모델은 개별 고객에 대한 특성을 고려하여 어떤 행동을 취할 경우 해당 고객의 반응이 가장 크게 변화할지를 예측 - 마케터들은 자원을 효율적으로 할당하고, 성과를 극대화할 수 있음 >> 마케팅을 안해도 서비스로 유입될 유저에게는 굳이 마케팅을 할 필요가 없다. 또한 마케팅을 하면 오히려 서비스에 반감을 가지는 유저도 있다. >> 따라서 마케팅을 안하면 서비스로 유입되지 않지만, 마케팅을 했을때 서비스로 유입될 유저를 선별하여 마케팅하는 것은 마케팅 비용 감소와 높은 전환률을 가질 수 있다 Uplift 모델링의 원리 - Uplift 모델링은 보통 "효과적인 인과 관계 추론"이라고도..

- GitHub에서 Pull Request를 생성할 때 템플릿을 사용하면 효과적으로 커뮤니케이션을 할 수 있고, 프로젝트의 품질을 높일 수 있다. 간단한 template 파일을 만들어 놓으면 PR 요청시 해당 template이 자동으로 로드되어 아주...편하게(?) 사용하는 방법을 공유한다! 1. PR 템플릿 생성 - 프로젝트 루트 디렉토리에 .github 디렉토리를 만들고, 그 안에 PULL_REQUEST_TEMPLATE.md 파일을 생성 - 여기에 PR 템플릿 파일들을 추가할 수 있음 (여러개의 template 파일 선택 가능) 2. 템플릿 파일 작성 - PR을 오픈할 때 보여줄 템플릿을 작성 - Markdown 형식으로 작성하며, 필요에 따라 다양한 섹션을 추가 가능 - 예를 들어, 아래와 같은 템..