일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- grad-cam
- session 유지
- youtube data
- 유튜브 API
- login crawling
- hadoop
- BigQuery
- airflow subdag
- spark udf
- gather_nd
- API Gateway
- Retry
- subdag
- XAI
- API
- chatGPT
- requests
- correlation
- Counterfactual Explanations
- tensorflow text
- 상관관계
- Airflow
- TensorFlow
- GenericGBQException
- flask
- UDF
- GCP
- top_k
- integrated gradient
- 공분산
- Today
- Total
목록Hadoop (4)
데이터과학 삼학년
스파크 사용 시 흔히 저지르는 실수와 최적화 방법스파크는 빅데이터 처리를 위한 프레임워크로, 빠른 처리 속도로 유명합니다. 이전 글에서는 스파크의 기본 개념과 빠른 이유에 대해 다루었습니다. 이번 글에서는 스파크 애플리케이션의 성능과 메모리 활용을 개선하기 위해 알아야 할 흔한 실수와 최적화 방법에 대해 다루겠습니다. 여기에는 클러스터 최적화, 설정 값 조정, 코드 수준의 최적화 등이 포함됩니다.실수 1: 지연 평가(Lazy Evaluation)를 이해하지 못함스파크는 전통적인 스크립트처럼 코드 라인별로 실행되지 않습니다.data = spark.read.csv("large_file.csv")data.filter(data["age"] > 30)print("Filtering done.")위 코드에서 prin..
Spark DataFrame vs Pandas DataFrame Spark DataFrame pandas DataFrame 구성 - Java Object로 만들어진 RDD 기반 - numpy의 ndarray를 기반 데이터 처리 방식 - 분산 데이터 처리를 위해 설계 - 대용량 데이터를 처리하고 병렬로 연산을 수행할 수 있음 - Spark는 클러스터에서 실행되며, 데이터를 여러 노드에 분산시키고 병렬로 처리하여 빠른 처리 속도를 제공 - 단일 머신에서 작동하는 메모리 기반의 데이터 구조 - 주로 작은 크기의 데이터셋을 처리하는 데 사용 - pandas는 메모리 내에서 데이터를 로드하고 연산을 수행하므로, 단일 머신의 자원을 활용하여 처리 속도를 높임 확장성 - Spark은 클러스터 컴퓨팅을 지원하므로, 대..
UDF (user defined function) - 사용자 정의 함수는 스파크에서 가장 강력한 기능 중 하나 - 파이썬이나 스칼라 그리고 외부 라이르브러리를 사용해 사용자가 원하는 형태로 트랜스포메이션을 만들 수 있게 함 - UDF는 한개 이상의 컬럼을 입력으로 받고 반환 가능 UDF 는 스파크의 드라이버 프로세스내에 저장되어 운용되며, 각 익스큐터에 전달하여 처리가 됨 pyspark sql 구문에서 udf를 사용하려면 정의한 udf를 sql 구문내 function으로 사용할 명령어를 아래와 같이 꼭 등록해야 사용 가능 >> 파이썬 함수를 SQL 함수로 등록!!! spark.udf.register("word_count", word_count) ### spark udf 생성 from pyspark.sql..
하둡 에코시스템(Hadoop EcoSystem) 하둡은 빅데이터의 처리를 위해서 주로 HDFS(Hadoop Distributed FileSystem)이라는 분산 데이터 저장과 빅데이터 처리를 위한 방식인 MapReduce방식으로 이루어져 있다. 빅데이터 시대의 도래로 이런 하둡을 좀 더 편하게, 그리고 단점은 수정하여 쉽게 잘 이용하는 여러 서브 프로젝트들이 진행되어 왔다. 그 서브 프로젝트의 모임을 하둡 에코 시스템이라고 한다. 하둡 에코시스템 목적별 분류 분산환경 관리자 ZooKeeper 주키퍼는 야후에서 처음 개발되었다. 하둡을 보면 서브프로젝트들이 대부분 동물들로 이름을 짓는다...ㅋㅋㅋ 하둡이 코끼리에서 시작해서 그런가...아무튼 이러한 동물들을 관리하는 사육사로서 분산 환경을 관리한다는 의미로..