일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- GCP
- Airflow
- spark udf
- subdag
- integrated gradient
- hadoop
- API Gateway
- correlation
- tensorflow text
- Counterfactual Explanations
- 상관관계
- TensorFlow
- chatGPT
- XAI
- session 유지
- gather_nd
- youtube data
- flask
- grad-cam
- UDF
- top_k
- airflow subdag
- login crawling
- BigQuery
- API
- Retry
- 유튜브 API
- GenericGBQException
- 공분산
- requests
- Today
- Total
목록전체 글 (415)
데이터과학 삼학년
React Native로 모바일 앱 개발하기1. 크로스 플랫폼 개발의 필요성모바일 애플리케이션 시장의 확대로 다양한 플랫폼(iOS, Android)에서 실행 가능한 앱이 요구됨.기존에는 각각의 플랫폼에 맞는 네이티브 코드를 작성해야 했으나, 크로스 플랫폼 개발 프레임워크가 이를 해결.React Native는 Facebook이 개발한 오픈소스 크로스 플랫폼 프레임워크로, 단일 코드베이스로 iOS와 Android 앱을 만들 수 있음.2. React Native란?React Native는 JavaScript와 React를 사용해 모바일 애플리케이션을 개발할 수 있는 프레임워크.네이티브 앱 성능을 제공하면서도, 단일 코드베이스로 여러 플랫폼을 지원.React의 컴포넌트 기반 아키텍처를 적용해 UI와 로직을 재사..
1. 시계열 데이터란?*시계열 데이터(Time Series Data)**는 시간에 따라 연속적으로 수집된 데이터를 말합니다. 주로 금융, 경제, 제조, 기상 예측, 주식 시장, IoT 센서 데이터 등에서 많이 사용됩니다. 시계열 데이터는 시간 축을 가지며, 시간에 따른 데이터의 흐름, 패턴, 변화 등을 분석하는 것이 특징입니다.예시: 주가 데이터(분/시간 단위), 날씨 데이터(일 단위), 매출 기록(월 단위)2. 시계열 데이터 분석의 필요성시계열 데이터 분석은 과거의 데이터를 통해 현재의 패턴을 이해하고, 미래의 값을 예측하거나 비정상적 현상을 탐지하는 데 유용합니다. 이를 통해 의사결정 과정에서 더 나은 판단을 내리고, 자원 배분이나 리스크 관리에 활용할 수 있습니다.시계열 분석의 주요 목적:트렌드 분..
Python Celery를 이용한 비동기 작업 처리1. 비동기 작업 처리의 필요성현대 웹 애플리케이션은 실시간으로 대량의 요청을 처리해야 함.오래 걸리는 작업(이메일 전송, 이미지 처리 등)은 응답 지연을 유발할 수 있음.이를 해결하기 위해 비동기 작업 처리가 필요하며, Python에서 이를 구현할 때 주로 Celery를 사용.2. Celery란?Python 기반 비동기 작업 큐(Task Queue) 라이브러리.큐에 작업을 넣으면 백그라운드에서 워커(worker)가 처리함.분산 시스템 및 확장성 있는 작업 처리가 가능하며, 실시간 작업 처리와 스케줄링 지원. 3. Celery의 주요 구성 요소Task: 백그라운드에서 실행되는 작업.Broker: 작업을 전달하는 중간 매개체 (Redis, RabbitMQ ..
불균형한 데이터를 평가할 때 precision과 recall 중 어느 것을 우선시해야 하는지는 문제의 특성과 목표에 따라 다름 Precision (정밀도)정의: 모델이 양성으로 예측한 것 중 실제로 양성인 비율.공식: Precision = TP / (TP + FP)우선시해야 할 상황:*False Positive (위양성)**를 줄이는 것이 중요한 경우.예를 들어, 스팸 필터링에서 스팸이 아닌 이메일을 스팸으로 분류하는 경우(정상 이메일이 스팸함으로 가는 경우)를 줄이고 싶을 때.이상탐지 -> 모델의 이상탐지로 인해 유저 제재가 이루어졌을 경우, 크리티컬한 비즈니스 문제가 생길 수 있음(cs)Recall (재현율)정의: 실제 양성 중에서 모델이 양성으로 정확히 예측한 비율.공식: Recall = TP / ..
Learning to Rank (LTR) 개요목적: LTR(Learning to Rank) 모델은 대량의 데이터를 처리하면서 제한된 공간에 가장 관련성이 높은 항목을 최상단에 배치하는 것에 중점을 둔다. 이는 검색 엔진, 온라인 쇼핑몰의 상품 추천 등에서 사용특징: LTR 모델은 정확한 예측 값보다 항목들의 상대적 순서를 최적화하는 데 집중적용 분야: 검색 엔진, 상품 추천 등1. Pointwise LTR목적: 개별 항목의 특정 메트릭(예: 클릭 확률, 매출액 등)을 예측하여 순위를 매기는 것에 최적화.접근 방법:각 항목을 독립적으로 처리.항목별로 점수나 확률을 예측하고, 이 점수를 기준으로 정렬.대표 모델:로지스틱 회귀(Logistic Regression)서포트 벡터 머신(SVM)평가 방법: 일반적인 ..
1. Retrieval (검색자)역할: 사용자에게 추천할 후보 아이템을 빠르게 찾는 단계비유: 서점에서 수천 권의 책 중에서 취향에 맞을 가능성이 높은 100권을 골라내는 과정방법: 사용자의 간단한 선호 정보로 전체 아이템 중 관련성이 높은 것을 필터링특징: 대량의 데이터를 효율적으로 처리하며, 대략적인 후보군을 찾는 것이 목표2. Ranking (순위화)역할: Retrieval로 찾은 후보 아이템을 분석해 가장 적합한 순서로 정렬하는 단계비유: 서점에서 고른 100권의 책 중에서 가장 좋아할 가능성이 높은 순서로 정렬방법: 사용자의 상세한 선호, 아이템의 특성, 컨텍스트를 고려해 정확하게 순위를 매김특징: 소수의 아이템을 정밀하게 분석하고 최종 추천 리스트를 작성정리Retrieval: 대량의 데이터에서..
검색 및 추천 시스템의 성과를 평가하는 다양한 메트릭검색 엔진 및 추천 시스템의 성과를 평가하는 데에는 여러 메트릭이 사용 1. NDCG (Normalized Discounted Cumulative Gain)NDCG는 검색 결과의 랭킹 품질을 평가하는 메트릭으로, 관련성 점수와 위치에 따라 할인된 점수를 사용합니다.DCG 계산:\[DCG_p = \sum_{i=1}^{p} \frac{rel_i}{\log_2(i+1)}\]IDCG 계산:\[IDCG_p = \sum_{i=1}^{p} \frac{rel_{(i)}}{\log_2(i+1)}\]NDCG 계산:\[NDCG_p = \frac{DCG_p}{IDCG_p}\]여기서 ( rel_i )는 위치 ( i )에서의 관련성 점수, ( rel_{(i)} )는 이상적인 순..
NDCG (Normalized Discounted Cumulative Gain)- 정보 검색 시스템과 추천 시스템의 성과를 평가하는 데 있어, 단순히 클릭 수나 정확도만으로는 충분하지 않음- 사용자에게 제공되는 결과의 랭킹도 중요- NDCG (Normalized Discounted Cumulative Gain)는 이러한 랭킹의 품질을 평가하는 데 유용한 메트릭- NDCG는 검색 결과나 추천 목록에서 항목이 어떻게 랭킹되는지를 측정- 이 메트릭은 정확성과 랭킹 품질을 동시에 고려하며, 높은 순위에 더 많은 가중치를 부여Cumulative Gain (CG): 각 위치의 점수를 합산하여 얻은 총 점수.Discounted Cumulative Gain (DCG): 위치가 높을수록 중요도가 낮아지므로, 점수를 할인..