일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- login crawling
- session 유지
- hadoop
- Retry
- tensorflow text
- flask
- chatGPT
- 상관관계
- youtube data
- GenericGBQException
- requests
- spark udf
- BigQuery
- TensorFlow
- Airflow
- grad-cam
- gather_nd
- correlation
- Counterfactual Explanations
- GCP
- airflow subdag
- top_k
- subdag
- integrated gradient
- 유튜브 API
- XAI
- UDF
- 공분산
- API
- API Gateway
- Today
- Total
목록전체 글 (418)
데이터과학 삼학년
스파크 사용 시 흔히 저지르는 실수와 최적화 방법스파크는 빅데이터 처리를 위한 프레임워크로, 빠른 처리 속도로 유명합니다. 이전 글에서는 스파크의 기본 개념과 빠른 이유에 대해 다루었습니다. 이번 글에서는 스파크 애플리케이션의 성능과 메모리 활용을 개선하기 위해 알아야 할 흔한 실수와 최적화 방법에 대해 다루겠습니다. 여기에는 클러스터 최적화, 설정 값 조정, 코드 수준의 최적화 등이 포함됩니다.실수 1: 지연 평가(Lazy Evaluation)를 이해하지 못함스파크는 전통적인 스크립트처럼 코드 라인별로 실행되지 않습니다.data = spark.read.csv("large_file.csv")data.filter(data["age"] > 30)print("Filtering done.")위 코드에서 prin..
교차표와 카이제곱 검정: 독립성 테스트1. 교차표란?교차표(Cross Tabulation): 두 변수 간의 관계를 2차원 행렬로 나타내는 방법두 변수의 각 범주에 대한 빈도를 표시Excel의 피벗 테이블과 유사하게 데이터를 시각화주요 장점: 데이터 분포를 쉽게 이해 가능2. 카이제곱 검정이란?카이제곱 검정(χ² Test): 두 변수 간의 관계가 통계적으로 유의미한지 평가하는 방법목적: 관찰된 데이터가 우연인지, 아니면 두 변수 간에 실제로 의미 있는 관계가 있는지를 판단3. 예시질문: "마지막 접촉 채널과 디바이스 유형 간에 관계가 있는가?"방법: 교차표를 통해 두 변수의 분포 확인 후 카이제곱 검정 수행4. 카이제곱 검정 수행 절차관찰 데이터(Observed Data) 준비: 두 변수의 실제 데이터를 ..
1. JOIN 방식의 개요임팔라의 JOIN 방식: 두 가지 방식 제공BROADCAST JOIN: 작은 테이블을 모든 노드에 전송하여 메모리상에서 JOIN 수행PARTITIONED JOIN: 큰 테이블 간 결합 시 파티셔닝을 통한 분산 처리 수행BROADCAST JOIN정의: JOIN 대상 중 작은 테이블을 쿼리 참여 노드에 모두 전송하여 JOIN 연산 수행적합한 사용 시기: 작은 테이블과 큰 테이블의 JOIN 연산 시 유리특징: 작은 테이블이 전체 노드에 복제되므로 빠른 처리 가능. 큰 테이블 broadcast 시 메모리 과부하 발생 가능PARTITIONED JOIN정의: JOIN 연산에 참여하는 두 테이블을 키(key) 기준으로 파티셔닝 후 각 파티션에서 JOIN 수행적합한 사용 시기: 큰 테이블 간 ..
React Native로 모바일 앱 개발하기1. 크로스 플랫폼 개발의 필요성모바일 애플리케이션 시장의 확대로 다양한 플랫폼(iOS, Android)에서 실행 가능한 앱이 요구됨.기존에는 각각의 플랫폼에 맞는 네이티브 코드를 작성해야 했으나, 크로스 플랫폼 개발 프레임워크가 이를 해결.React Native는 Facebook이 개발한 오픈소스 크로스 플랫폼 프레임워크로, 단일 코드베이스로 iOS와 Android 앱을 만들 수 있음.2. React Native란?React Native는 JavaScript와 React를 사용해 모바일 애플리케이션을 개발할 수 있는 프레임워크.네이티브 앱 성능을 제공하면서도, 단일 코드베이스로 여러 플랫폼을 지원.React의 컴포넌트 기반 아키텍처를 적용해 UI와 로직을 재사..
1. 시계열 데이터란?*시계열 데이터(Time Series Data)**는 시간에 따라 연속적으로 수집된 데이터를 말합니다. 주로 금융, 경제, 제조, 기상 예측, 주식 시장, IoT 센서 데이터 등에서 많이 사용됩니다. 시계열 데이터는 시간 축을 가지며, 시간에 따른 데이터의 흐름, 패턴, 변화 등을 분석하는 것이 특징입니다.예시: 주가 데이터(분/시간 단위), 날씨 데이터(일 단위), 매출 기록(월 단위)2. 시계열 데이터 분석의 필요성시계열 데이터 분석은 과거의 데이터를 통해 현재의 패턴을 이해하고, 미래의 값을 예측하거나 비정상적 현상을 탐지하는 데 유용합니다. 이를 통해 의사결정 과정에서 더 나은 판단을 내리고, 자원 배분이나 리스크 관리에 활용할 수 있습니다.시계열 분석의 주요 목적:트렌드 분..
Python Celery를 이용한 비동기 작업 처리1. 비동기 작업 처리의 필요성현대 웹 애플리케이션은 실시간으로 대량의 요청을 처리해야 함.오래 걸리는 작업(이메일 전송, 이미지 처리 등)은 응답 지연을 유발할 수 있음.이를 해결하기 위해 비동기 작업 처리가 필요하며, Python에서 이를 구현할 때 주로 Celery를 사용.2. Celery란?Python 기반 비동기 작업 큐(Task Queue) 라이브러리.큐에 작업을 넣으면 백그라운드에서 워커(worker)가 처리함.분산 시스템 및 확장성 있는 작업 처리가 가능하며, 실시간 작업 처리와 스케줄링 지원. 3. Celery의 주요 구성 요소Task: 백그라운드에서 실행되는 작업.Broker: 작업을 전달하는 중간 매개체 (Redis, RabbitMQ ..
불균형한 데이터를 평가할 때 precision과 recall 중 어느 것을 우선시해야 하는지는 문제의 특성과 목표에 따라 다름 Precision (정밀도)정의: 모델이 양성으로 예측한 것 중 실제로 양성인 비율.공식: Precision = TP / (TP + FP)우선시해야 할 상황:*False Positive (위양성)**를 줄이는 것이 중요한 경우.예를 들어, 스팸 필터링에서 스팸이 아닌 이메일을 스팸으로 분류하는 경우(정상 이메일이 스팸함으로 가는 경우)를 줄이고 싶을 때.이상탐지 -> 모델의 이상탐지로 인해 유저 제재가 이루어졌을 경우, 크리티컬한 비즈니스 문제가 생길 수 있음(cs)Recall (재현율)정의: 실제 양성 중에서 모델이 양성으로 정확히 예측한 비율.공식: Recall = TP / ..
Learning to Rank (LTR) 개요목적: LTR(Learning to Rank) 모델은 대량의 데이터를 처리하면서 제한된 공간에 가장 관련성이 높은 항목을 최상단에 배치하는 것에 중점을 둔다. 이는 검색 엔진, 온라인 쇼핑몰의 상품 추천 등에서 사용특징: LTR 모델은 정확한 예측 값보다 항목들의 상대적 순서를 최적화하는 데 집중적용 분야: 검색 엔진, 상품 추천 등1. Pointwise LTR목적: 개별 항목의 특정 메트릭(예: 클릭 확률, 매출액 등)을 예측하여 순위를 매기는 것에 최적화.접근 방법:각 항목을 독립적으로 처리.항목별로 점수나 확률을 예측하고, 이 점수를 기준으로 정렬.대표 모델:로지스틱 회귀(Logistic Regression)서포트 벡터 머신(SVM)평가 방법: 일반적인 ..