일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- integrated gradient
- grad-cam
- Counterfactual Explanations
- chatGPT
- BigQuery
- gather_nd
- youtube data
- hadoop
- GenericGBQException
- API
- TensorFlow
- Retry
- 유튜브 API
- API Gateway
- spark udf
- XAI
- 상관관계
- top_k
- flask
- login crawling
- 공분산
- GCP
- tensorflow text
- UDF
- session 유지
- subdag
- airflow subdag
- requests
- correlation
- Airflow
- Today
- Total
목록GCP (23)
데이터과학 삼학년
GCP의 서비스 중 ai-platform(구 CMLE) 기능을 사용할 때 나타나는 에러에 대해 언급하려 한다. stream logs 에서 나는 에러가 있다. 바로 아래 그림이다. gcp 서버쪽으로 logs 관련 api를 호출하는 과정에서 나는 서버 에러로 보인다. 이러한 에러는 실제로 gcp의 ai-platform에서 학습과 예측을 시키는데 전혀 문제가 없지만 파이프 라인으로 구성한 프로젝트 잡의 경우에는 매우 치명적이다. 예를 들어 파이프라인으로 데이터 전처리 - 학습 - 예측 - 결과적재 의 단계를 실행 시킬때 학습의 단계가 완료 된후 예측으로 넘어가야하기 때문에 학습이 완료된 지 여부를 알아야한다. 이것을 위해 사용하는 것이 stream-logs 라는 옵션이다. 이 옵션을 넣게 되면 학습이 다 될때..
BQ table에 있는 COLUMN 중 스키마 타입이 변경되었을 경우, TABLE_SUFFIX를 사용하지 못하는 경우에 대해 공유하려고 한다. 이것이 무슨 말인가 하니... 코드를 보며 이해해 보자 1. 상황 grade field 가 있는데 특정 날짜를 기준으로 해당 field의 type이 변경됨. 예시) grade type 20200128 이전 string 20200128 이후 integer 2. Table_suffix를 이용하여 쿼리를 날릴 경우! SELECT grade FROM `[project_id].[table_id].data_*` WHERE _TABLE_SUFFIX = '20200127' 이러한 에러가 발생!!! 그러나 _table_suffix를 사용하지 않고 직접 입력해준다면...잘실행됨 S..
GCP for data analytics Infra에 신경쓰지 말고, Query에만 집중할 수 있음 빠른 연산 속도 Elastic하게 상황에 따라 vm을 조절(Auto scalability) Big Data Tools Data 분석가가 data의 수집단계(ingest)에서 부터 참여하여 원하는 데이터(형태)를 수집하는 것이 중요 Ingest -> Bigquery storage Transform -> Dataflow, Dataprep Store -> Cloud storage Analyze -> Bigquery alysis(SQL), Datalab Visualize -> data studio BigQuery Petabyte scale 감당 접근 권한 부여에 따른 보안 SQL In BigQuery Datala..
Data engineering on GCP [Introduction] Data structured -> Bigquery, Dataflow unstructured -> Dataproc, AutoML(CMLE), CMLE(tensorflow, scikit-learn 내재) Map-reduce DATA 쪼개기 : Shard DATA 입력 : Map DATA를 ID(식별자)에 따라 재분류 : Shuffling 처리된 DATA를 합치기 : Reduce Ex) HADOOP, Spark 병렬분산 처리로 방대한 DATA를 처리하지만, 머신의 고장과 과정의 복잡성, 최적화 등의 문제로 어려움 발생 병렬분산 구조 완성과 Hadoop 시스템을 대신 관리 : Dataproc DataProc GCP -> Create clust..
kubeflow pipeline - kubeflow에서 제공하는 workflow - ml workflow를 사용하기 위해 cmle를 사용할 수도 있지만 kubeflow 내에 있는 ksonnet으로 ml 학습&예측 가능 - kubeflow는 GKE 위에 설치하고 web ui에서 관리 가능 - 전체적인 ML 파이프라인 구성 가능(쥬피터 허브, 텐서플로우, Seldon, argo, docker image, TFX 등 지원) - 오픈소스를 활용한 ml 작업을 유연하게 구성가능하도록 구성 - 목적 : composability, portability, scalability(환경을 elastic하게 조정) - data ingestion 부터 monitoring, logging까지 전체적인 일련의 과정 구성 - kub..
GCP를 활용하다 보면 Bigquery의 힘이 정말 대단하다. 빠르고 대용량을 아주...꽤나 잘 처리한다. 주로 빅데이터를 분석하면서 bigquery에서 데이터를 불러와 잘짜여진 알고리즘에 따라 분석된 결과를 다시 Google BQ에 올려 언제든 결과를 확인하고 싶을때가 많다. 그리고 그렇게 일을 처리해야 GCP를 이용해 업무를 효율적으로 진행할 수 있다. 필자는 데이터 분석을 할때 parallel 한 처리를 하기 때문에 parallel로 처리한 결과들을 비동기식으로 bq에 적재하는 경우가 많다. import multiprocessing ### bigquery load error 일부러 내기 def bq_load(df): .... result = result.to_gbq(destination_table=..
Domain 지식의 중요성 - 데이터를 이해하고, 문제를 풀기 위한 데이터를 선택할 수 있음 Bigquery ML > GCP에서 Bigquery를 이용하여 ML을 학습 및 예측이 가능해 졌다! - bq를 이용하여 모델을 학습시킴(학습된 모델이 저장될 위치를 지정해줌) - 학습된 모델의 training info를 볼 수 있음 - ML.PREDICT(MODEL 만들어진 모델, 예측할 데이터) - tensorflow를 이용하여 모델을 적용할 경우에는 미리 학습된 모델을 적용하여 예측 가능함 BQ에서 제공해주고 있는 Lineal와 같은 모델로는 학습이 가능하지만 커스텀한 학습은 아직 불가능하다. 커스텀 학습한 모델을 BQ에 올리고 이를 이용하여 예측하는 것은 가능하다. 이 기능을 이용하면 BQ에 적재되어 있는 ..