일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- login crawling
- API
- subdag
- Counterfactual Explanations
- XAI
- integrated gradient
- session 유지
- airflow subdag
- Airflow
- gather_nd
- UDF
- top_k
- chatGPT
- hadoop
- GCP
- correlation
- youtube data
- 공분산
- 유튜브 API
- requests
- 상관관계
- API Gateway
- grad-cam
- GenericGBQException
- TensorFlow
- spark udf
- tensorflow text
- flask
- Retry
- BigQuery
- Today
- Total
목록2024/11 (2)
데이터과학 삼학년
교차표와 카이제곱 검정: 독립성 테스트1. 교차표란?교차표(Cross Tabulation): 두 변수 간의 관계를 2차원 행렬로 나타내는 방법두 변수의 각 범주에 대한 빈도를 표시Excel의 피벗 테이블과 유사하게 데이터를 시각화주요 장점: 데이터 분포를 쉽게 이해 가능2. 카이제곱 검정이란?카이제곱 검정(χ² Test): 두 변수 간의 관계가 통계적으로 유의미한지 평가하는 방법목적: 관찰된 데이터가 우연인지, 아니면 두 변수 간에 실제로 의미 있는 관계가 있는지를 판단3. 예시질문: "마지막 접촉 채널과 디바이스 유형 간에 관계가 있는가?"방법: 교차표를 통해 두 변수의 분포 확인 후 카이제곱 검정 수행4. 카이제곱 검정 수행 절차관찰 데이터(Observed Data) 준비: 두 변수의 실제 데이터를 ..
1. JOIN 방식의 개요임팔라의 JOIN 방식: 두 가지 방식 제공BROADCAST JOIN: 작은 테이블을 모든 노드에 전송하여 메모리상에서 JOIN 수행PARTITIONED JOIN: 큰 테이블 간 결합 시 파티셔닝을 통한 분산 처리 수행BROADCAST JOIN정의: JOIN 대상 중 작은 테이블을 쿼리 참여 노드에 모두 전송하여 JOIN 연산 수행적합한 사용 시기: 작은 테이블과 큰 테이블의 JOIN 연산 시 유리특징: 작은 테이블이 전체 노드에 복제되므로 빠른 처리 가능. 큰 테이블 broadcast 시 메모리 과부하 발생 가능PARTITIONED JOIN정의: JOIN 연산에 참여하는 두 테이블을 키(key) 기준으로 파티셔닝 후 각 파티션에서 JOIN 수행적합한 사용 시기: 큰 테이블 간 ..