일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- youtube data
- grad-cam
- flask
- 공분산
- GenericGBQException
- Airflow
- API Gateway
- airflow subdag
- 상관관계
- 유튜브 API
- subdag
- session 유지
- Retry
- UDF
- tensorflow text
- integrated gradient
- hadoop
- BigQuery
- API
- spark udf
- Counterfactual Explanations
- chatGPT
- requests
- login crawling
- XAI
- correlation
- gather_nd
- top_k
- GCP
- TensorFlow
- Today
- Total
목록전체 글 (403)
데이터과학 삼학년
Domain 지식의 중요성 - 데이터를 이해하고, 문제를 풀기 위한 데이터를 선택할 수 있음 Bigquery ML > GCP에서 Bigquery를 이용하여 ML을 학습 및 예측이 가능해 졌다! - bq를 이용하여 모델을 학습시킴(학습된 모델이 저장될 위치를 지정해줌) - 학습된 모델의 training info를 볼 수 있음 - ML.PREDICT(MODEL 만들어진 모델, 예측할 데이터) - tensorflow를 이용하여 모델을 적용할 경우에는 미리 학습된 모델을 적용하여 예측 가능함 BQ에서 제공해주고 있는 Lineal와 같은 모델로는 학습이 가능하지만 커스텀한 학습은 아직 불가능하다. 커스텀 학습한 모델을 BQ에 올리고 이를 이용하여 예측하는 것은 가능하다. 이 기능을 이용하면 BQ에 적재되어 있는 ..
Optimization - Defining ML models > parameter 와 losses를 통한 optimization이 없으면 그냥 수학적 모델, function과 동일 > input과 output을 반복해서 넣으면서 그 둘의 관계를 이용하여 성능이 좋은 function을 만들어 냄 > parameters : 자동적으로 조절 function이 재생산(갱신)됨 > metrics : 모델의 궁극적인 최종 결과를 평가하기 위함(사람이 직관적으로 판단해야 할 것) > losses : 최적 모델을 만들어내기 위한 평가 척도(계속해서 갱신...갱신) - loss function > error = actual value - predicted value > RMSE를 쓰는 이유 : 데이터의 수가 다르면 비교..
파이썬에서는 GIL(Global Interpreter Lock)이라는 개념때문에 multi-thread를 사용하여도 실제로 싱글스레드로 연산이 된다. 따라서 CPU bound 처럼 연산을 parallel 처리하기 위해서는 multiprocessing이라는 library를 사용하여 처리하면 된다. multiprocessing을 적용하는 방법은 그리 어렵지 않다. 함수를 호출하고 각 process가 작업할 수 있도록 데이터를 넣어주면 된다. multiprocessing의 pool을 사용하면 multiprocessing 내의 함수의 인자를 한개를 받아와야하므로 partial 이라는 functools 를 이용하여 적용할 수 있다. 1. multiprocessing 기본 적용 및 함수에서 다수의 인자를 받기 위한..