250x250
반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- chatGPT
- tensorflow text
- GCP
- BigQuery
- spark udf
- integrated gradient
- Airflow
- subdag
- airflow subdag
- 상관관계
- GenericGBQException
- Retry
- TensorFlow
- API Gateway
- UDF
- 유튜브 API
- top_k
- grad-cam
- Counterfactual Explanations
- youtube data
- flask
- XAI
- gather_nd
- API
- session 유지
- correlation
- hadoop
- 공분산
- login crawling
- requests
Archives
- Today
- Total
목록2024/12/25 (1)
데이터과학 삼학년
[Spark] 스파크 사용 최적화 / 유의사항!!!
스파크 사용 시 흔히 저지르는 실수와 최적화 방법스파크는 빅데이터 처리를 위한 프레임워크로, 빠른 처리 속도로 유명합니다. 이전 글에서는 스파크의 기본 개념과 빠른 이유에 대해 다루었습니다. 이번 글에서는 스파크 애플리케이션의 성능과 메모리 활용을 개선하기 위해 알아야 할 흔한 실수와 최적화 방법에 대해 다루겠습니다. 여기에는 클러스터 최적화, 설정 값 조정, 코드 수준의 최적화 등이 포함됩니다.실수 1: 지연 평가(Lazy Evaluation)를 이해하지 못함스파크는 전통적인 스크립트처럼 코드 라인별로 실행되지 않습니다.data = spark.read.csv("large_file.csv")data.filter(data["age"] > 30)print("Filtering done.")위 코드에서 prin..
Hadoop
2024. 12. 25. 18:26