일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- gather_nd
- Counterfactual Explanations
- grad-cam
- GenericGBQException
- subdag
- spark udf
- BigQuery
- hadoop
- top_k
- 공분산
- 유튜브 API
- login crawling
- GCP
- Retry
- flask
- API Gateway
- UDF
- XAI
- tensorflow text
- session 유지
- chatGPT
- airflow subdag
- API
- correlation
- 상관관계
- integrated gradient
- Airflow
- youtube data
- TensorFlow
- requests
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년
airlfow에서 많은 Dags를 운영중이면 당연히 많은 task가 실행될때!!>> 각 task가 실행되며 각자의 우선순위에 따라 airflow가 제한된 리소스내에서 실행시킬 task 우선순위 전략을 짬 Airflow 전략 방법- priority_weight와 weight_rule으로 나눌수 있으며- 각 task는 priority_weight를 가지며, default로 1의 값을 가짐- weight_rule은 downstream, upstream, absolute가 있으며, default는 downstream weight_rule - downstream : 가중치는 다운스트림 priority_weight 누적 합계로 계산 - upstream : 가중치는 업스트림 task의 priority_weigh..
Sequential task loop로 연결하기 예를 들어 단순 반복되어 길게 연결되는 task가 있다면...어떻게 연결할까? t1 >> t2 >> t3 >> t4 >> t5 >> ... >> t100 까지 직접 연결하는 것은 매우 비효율적이다.. 병렬 연결이야 start >> [t1, t2, t3,..] 로 묶으면 되지만... 이럴때 간단한 파이썬 코드로 구성하는 방법을 정리한다. 1. 파이썬코드 설정 from datetime import datetime, timedelta from airflow import DAG from airflow.operators.python import PythonOperator default_args = { "owner": "airflow", "start_date": da..

다중공선성 문제 - 션형회귀에서는 변수가 발산됨 다중공선성 처리 방법 - 라쏘나 릿지, 일래스틱넷과 같이 정규항이 포함된 모델을 이용해 회귀 계수가 커지는 것을 억제하는 방법 - 다중공선성이 있는 feature 삭제 다중공선선 확인 방법 - 상관관계 - VIFi=11−R2i → 10 이상 - conditionnumber=lambdamax/lambdamin = 공분산 행렬의 최대 고유값 / 최소 고유값 비율 → 30이상이면 다중공선성이나 scaling 문제 의심
범주형 변수 - 연속형변수 간 상관관계 평균 비교 그래프 (Box Plot 또는 Violin Plot) - 연속형 변수를 범주형 변수의 각 수준에 따라 상자 그림 또는 바이올린 그림으로 그릴 수 있음 - 이러한 그래프는 범주형 변수의 각 수준에서 연속형 변수의 분포와 중앙값을 시각적으로 비교 import seaborn as sns import matplotlib.pyplot as plt # 범주형 변수 category = np.array(['A', 'B', 'A', 'B', 'A']) # 연속형 변수 continuous = np.array([10, 15, 12, 18, 8]) # Box Plot 또는 Violin Plot 그리기 sns.boxplot(x=category, y=continuous) plt...
Recursive Feature Elimination - Feature Selection의 한 방법으로 전체 feature를 적용하고, 점진적으로 feature를 빼나가면서 최적의 feature수와 feature를 찾는 방법 (backward 방식) - feature를 많이 사용할 수록 overfitting, 차원의 저주 등 실서비스 적용에 옳지 않은 방식이 이루어지기 때문에 적절한 갯수의 핵심적인 feature를 선정하는 것이 중요 RFE 방식 학습하고 싶은 모델선정 모델의 feature importance 도출 feature importance가 낮은 feature부터 하나씩 제거 1~3 방식 반복 코드 # explore the number of selected features for RFE from..

Explainable Boosting Machine(EBM) - 트리기반의 순환형 gradient boosting - Generalized Additive 모델 [참고] - 다른 알고리즘 모델보다 학습에 시간이 더 소요될 수 잇음 - glassbox 모델이라 불림 ㄴ 기존 딥러닝 모델이 blackbox모델로 불리며 내부 동작구조를 알기 어려움 ㄴ 내부가 다 보이는 glass박스 모델은 내부 동작구조를 어느정도 알수 있어서 이렇게 명명하지 않았을까?! ㄴ model-agnostic에 맞게 의역해보면, Model에 관계없이 적용가능한 방법론 - 기존 boosting 방식으로 학습시키나, Xi와 y간의 관계를 추가함수를 통해 정의함으로서 비선형성 문제도 해결할 수 있도록 고안 학습방식 - feature를 한개..

커널 함수(kernel function) - Support Vector Machine(SVM)과 같은 머신러닝 모델에서 사용되는 함수 - 커널 함수는 두 개의 입력 벡터를 받아 두 벡터 간의 유사도 또는 내적(inner product) 값을 계산하는 역할 - 유사도 또는 내적 값은 입력 데이터를 더 고차원 공간으로 매핑하거나 유사도를 측정하여 머신러닝 모델에서 판별 경계를 만들 때 사용 커널 함수 조건 : Mercer의 정리(Mercer's Theorem) - Mercer의 정리가 충족되면 커널 함수는 커널 트릭을 사용하여 고차원 특징 공간에서의 비선형 문제를 효과적으로 해결 가능 1. 대칭성(Symmetry) - 커널 함수 K(x,y) 는 대칭성을 가져야 함 -> 즉, $K(x, y) = K(y,..

블로그 설정 -> 스킨편집 -> html편집 사이에 아래 코드 삽입 본문에 로시작해서끝나는 문자는 수식처리됨수식만 한줄로 크게 쓰고 싶으면 로시작해서로 끝내삼... K(x,y)-> 수식 쓰는 참고 사이트https://atomurl.net/math/ TeX equation editor (Mathematical Formulas)Online equation editor for writing math equations, expressions, mathematical characters, and operations. You can also generate an image of a mathematical formula using the TeX language. This is useful fo..