일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- XAI
- BigQuery
- grad-cam
- GenericGBQException
- hadoop
- subdag
- correlation
- API Gateway
- login crawling
- top_k
- spark udf
- gather_nd
- TensorFlow
- requests
- 상관관계
- Retry
- UDF
- 유튜브 API
- API
- flask
- session 유지
- chatGPT
- Counterfactual Explanations
- GCP
- tensorflow text
- airflow subdag
- youtube data
- Airflow
- integrated gradient
- 공분산
- Today
- Total
목록2024/12 (2)
데이터과학 삼학년
스파크 사용 시 흔히 저지르는 실수와 최적화 방법스파크는 빅데이터 처리를 위한 프레임워크로, 빠른 처리 속도로 유명합니다. 이전 글에서는 스파크의 기본 개념과 빠른 이유에 대해 다루었습니다. 이번 글에서는 스파크 애플리케이션의 성능과 메모리 활용을 개선하기 위해 알아야 할 흔한 실수와 최적화 방법에 대해 다루겠습니다. 여기에는 클러스터 최적화, 설정 값 조정, 코드 수준의 최적화 등이 포함됩니다.실수 1: 지연 평가(Lazy Evaluation)를 이해하지 못함스파크는 전통적인 스크립트처럼 코드 라인별로 실행되지 않습니다.data = spark.read.csv("large_file.csv")data.filter(data["age"] > 30)print("Filtering done.")위 코드에서 prin..
1. 네거티브 샘플링의 개념대규모 데이터 학습에서 연산량을 줄이고 효율성을 높이는 기법.모든 데이터를 사용하지 않고 일부만 선택해 학습.주요 활용 분야: 자연어 처리(NLP), 딥러닝.대표 사례: Word2Vec. 2. 네거티브 샘플링의 작동 원리Skip-gram 모델중심 단어(center word)에서 주변 단어(context word)를 예측.예: "고양이가 책상 위에 있다" 문장에서 중심 단어 "고양이"를 기준으로 "책상", "위에" 등을 예측.문제점어휘 크기가 10만 개라면, 중심 단어마다 10만 개의 확률 분포를 계산해야 함.엄청난 연산량을 요구.해결: 네거티브 샘플링 도입긍정 샘플(positive sample): 중심 단어와 실제 관련 있는 단어.네거티브 샘플(negative sample): ..