일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- tensorflow text
- airflow subdag
- GCP
- UDF
- subdag
- 상관관계
- flask
- login crawling
- requests
- API Gateway
- session 유지
- XAI
- gather_nd
- API
- 공분산
- grad-cam
- GenericGBQException
- hadoop
- youtube data
- 유튜브 API
- Airflow
- TensorFlow
- Retry
- BigQuery
- correlation
- top_k
- integrated gradient
- chatGPT
- spark udf
- Counterfactual Explanations
- Today
- Total
목록전체 글 (403)
데이터과학 삼학년
내가 관리하는 깃헙에 내가 푼 알고리즘 문제가 자동으로 올라간다면?! 와우...이런것을 가능하게 만든 크롬 확장프로그램이 있다. 바로 백준허브!!!! 백준허브를 이용하면 자동으로 프로그래머스와 백준에서 푼 문제가 문제/풀이 함께 내 깃헙에 올라간다. 1. 백준허브 크롬 extension 설치 https://chromewebstore.google.com/detail/%EB%B0%B1%EC%A4%80%ED%97%88%EB%B8%8Cbaekjoonhub/ccammcjdkpgjmcpijpahlehmapgmphmk?hl=ko 백준허브(BaekjoonHub) Automatically integrate your BOJ submissions to GitHub chrome.google.com 2. 설치 후 나의 깃헙 주..
git revert VS git reset - 둘 다 Git에서 이전 커밋을 조작하는 데 사용되지만, 그 방식과 목적에 있어서 중요한 차이가 있음 1. git revert 목적: 이전 커밋을 취소하고, 이전 상태로 돌아가면서 새로운 커밋을 생성 -> 다시 말해, 특정 커밋의 변경사항을 되돌리면서, 새로운 커밋을 만들어 현재 브랜치에 적용 사용 시나리오: 이미 공유된 브랜치에서 커밋을 취소하고자 할 때, 특히 이미 리모트 저장소에 푸시된 상태에서 사용 git revert 2. git reset 목적: 특정 커밋을 특정 지점까지 하나 이상의 작업트리, 인덱스, 커밋에 대해 이전 상태로 되돌림 -soft, -mixed, -hard 와 같은 옵션을 사용하여 작업트리 및 인덱스까지 리셋 여부를 결정 사용 시나리오..
소개 - 싱글턴 패턴은 어플리케이션에서 클래스의 인스턴스가 단 하나만 생성되도록 하는 디자인 패턴 중 하나 - 즉, class를 통해 여러 인스턴스를 생성하더라도 생성한 인스턴스는 하나의 포인터만 바라보게 되는 개념 - 파이썬에서는 이를 다양한 방식으로 구현 가능 1. 모듈을 이용한 싱글턴 - 가장 간단한 싱글턴 구현 방법 중 하나는 모듈을 이용. - 파이썬에서 모듈은 한 번만 로드되기 때문에 모듈 내부에 상태를 저장하여 싱글턴을 구현 가능 # singleton_module.py class SingletonClass: _instance = None def __new__(cls): if not cls._instance: cls._instance = super().__new__(cls) return cls...
airlfow에서 많은 Dags를 운영중이면 당연히 많은 task가 실행될때!!>> 각 task가 실행되며 각자의 우선순위에 따라 airflow가 제한된 리소스내에서 실행시킬 task 우선순위 전략을 짬 Airflow 전략 방법- priority_weight와 weight_rule으로 나눌수 있으며- 각 task는 priority_weight를 가지며, default로 1의 값을 가짐- weight_rule은 downstream, upstream, absolute가 있으며, default는 downstream weight_rule - downstream : 가중치는 다운스트림 priority_weight 누적 합계로 계산 - upstream : 가중치는 업스트림 task의 priority_weigh..
Sequential task loop로 연결하기 예를 들어 단순 반복되어 길게 연결되는 task가 있다면...어떻게 연결할까? t1 >> t2 >> t3 >> t4 >> t5 >> ... >> t100 까지 직접 연결하는 것은 매우 비효율적이다.. 병렬 연결이야 start >> [t1, t2, t3,..] 로 묶으면 되지만... 이럴때 간단한 파이썬 코드로 구성하는 방법을 정리한다. 1. 파이썬코드 설정 from datetime import datetime, timedelta from airflow import DAG from airflow.operators.python import PythonOperator default_args = { "owner": "airflow", "start_date": da..
다중공선성 문제 - 션형회귀에서는 변수가 발산됨 다중공선성 처리 방법 - 라쏘나 릿지, 일래스틱넷과 같이 정규항이 포함된 모델을 이용해 회귀 계수가 커지는 것을 억제하는 방법 - 다중공선성이 있는 feature 삭제 다중공선선 확인 방법 - 상관관계 - $VIF_i = \frac{1}{1-R^2_i}$ → 10 이상 - $\\{condition number} = {lambda_{\\{max}}} / {lambda_{\\{min}}}$ = 공분산 행렬의 최대 고유값 / 최소 고유값 비율 → 30이상이면 다중공선성이나 scaling 문제 의심
범주형 변수 - 연속형변수 간 상관관계 평균 비교 그래프 (Box Plot 또는 Violin Plot) - 연속형 변수를 범주형 변수의 각 수준에 따라 상자 그림 또는 바이올린 그림으로 그릴 수 있음 - 이러한 그래프는 범주형 변수의 각 수준에서 연속형 변수의 분포와 중앙값을 시각적으로 비교 import seaborn as sns import matplotlib.pyplot as plt # 범주형 변수 category = np.array(['A', 'B', 'A', 'B', 'A']) # 연속형 변수 continuous = np.array([10, 15, 12, 18, 8]) # Box Plot 또는 Violin Plot 그리기 sns.boxplot(x=category, y=continuous) plt...
Recursive Feature Elimination - Feature Selection의 한 방법으로 전체 feature를 적용하고, 점진적으로 feature를 빼나가면서 최적의 feature수와 feature를 찾는 방법 (backward 방식) - feature를 많이 사용할 수록 overfitting, 차원의 저주 등 실서비스 적용에 옳지 않은 방식이 이루어지기 때문에 적절한 갯수의 핵심적인 feature를 선정하는 것이 중요 RFE 방식 학습하고 싶은 모델선정 모델의 feature importance 도출 feature importance가 낮은 feature부터 하나씩 제거 1~3 방식 반복 코드 # explore the number of selected features for RFE from..