일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- hadoop
- XAI
- airflow subdag
- grad-cam
- BigQuery
- gather_nd
- GCP
- API
- requests
- 유튜브 API
- 공분산
- login crawling
- API Gateway
- top_k
- GenericGBQException
- youtube data
- 상관관계
- integrated gradient
- chatGPT
- Retry
- UDF
- TensorFlow
- session 유지
- tensorflow text
- correlation
- flask
- Counterfactual Explanations
- subdag
- Airflow
- spark udf
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년

LIME 결과 소수점 자리 핸들링 현황 및 필요성 - LIME의 feature별 임계값 기준이 소숫점 둘째자리까지 표시되게 되어 있음 예) [('feature1> -0.20', 0.21103299565738834), ('feature2> -0.02', 0.2084224450246051), ('feature3 -0.19212', 0.21103299565738834), ('feature2> -0.02125', 0.2084224450246051), ('feature3

ANOVA(분산분석) - 3개 이상의 모집단(population)의 평균이 같은지 분석하는 가설검정 방법 - 기존 t-test는 2개의 모집단간 평균이 같은지 분석하는 가설검정이었다면, ANOVA는 3개 이상의 모집단에 대해 평균이 같은지 보는 것으로 one-way, two-way에 따라 다중 종속변수의 관계까지 고려할 수 있음 - F-statistics를 통해 가설검정 --> 정규분포의 제곱의 합은 카이제곱 분포 --> 카이제곱분포는 f통계량으로 분석(F = t-value^2) - 통계량을 구하는 식 자체가 error인데 곧 분산과 같아서, 분산 분석이라는 표현 사용 ANOVA(분산분석) 개념 - 결국, level간 분산이 level내 분산보다 크다면 영가설을 기각시키는 것으로 생각하면 됨 - f-통계..

Information Gain - 데이터셋의 변화로 나타난 엔트로피(or surprise)의 감소량 - 일반적으로 decision tree를 만드는 로직으로 많이 이용되고 있고, 각각 변수의 information gain을 계산, information gain을 최대화 시킬수 있는 변수를 선택하는 것에 주로 쓰임 - 가장 좋은 dataset best split을 만들기 위해서도 사용됨 Skewed Probability Distribution (unsurprising): Low entropy. Balanced Probability Distribution (surprising): High entropy. - information이란 purity 즉 순도의 영향을 측정하는 것으로, 기존에 가지고 있던 엔트로피..

tensorflow_decision_forests 라는 라이브러리를 통해 손쉽게 tf기반의 randomforest, gradient boosting tree를 사용할 수 있다. 사실 sklearn이나 xgboost와 같은 라이브러리를 이용하면 되지만, 굳이 tensorflow를 이용하는 것은 Google Cloud Platform의 Bigquery에 모델을 등록하고, 예측을 하면, 서비스 적용과 운영측면에서 용이하기 때문에 사용한다. Bigquery ML은 custom model의 경우 tensorflow로 작성한 모델만을 지원하기 때문에... 그마저도 메모리를 많이 차지하는 무거운 모델은 등록할 수 가 없다. 그래서...하이퍼파라미터를 조절해서 비교적 shallow한 모델을 구성하여 등록해야한다. te..

All about Feature Scaling Feature scaling 필요성 - feature scaling은 머신러닝알고리즘에서 데이터간 거리를 계산하는데 필요함 - scaling을 하지 않으면, 더 넓은 범위의 값을 가지는 feature가 거리를 계산하는데 주된 기준이 될 것임 - 머신러닝 모델을 학습시키는데 있어서 빠른 수렴(faster convergence)를 하는데 큰 도움이 되는 것이 scaling임 - feature scaling 이해 Feature scaling이 필수인 알고리즘 - KNN - K-Means - PCA - Gradient Descent Feature scaling이 필수가 아닌 알고리즘 - rule에 의존하는 알고리즘 - CART - Random Forest - Gra..

LOF (Local Outlier Factor) - 밀도 기반의 이상탐지 방법으로 local을 나누어 local의 밀도를 이용해 각 point 마다 factor를 부여하여 이상치를 탐지하는 방법 - LOF는 각각의 관측치가 데이터 안에서 얼마나 벗어나 있는가에 대한 정도(이상치 정도)를 나타냄 - LOF의 가장 중요한 특징은 모든 데이터를 전체적으로 고려하는 것이 아니라, 해당 관측치의 주변 데이터(neighbor)를 이용하여 국소적(local) 관점으로 이상치 정도를 파악 - 아래 그림의 O2와 O3가 가진 주변 point들과의 거리를 보면 당연히 O2가 O3보다 짧을 테지만, 국소적인 밀도관점에서 보면 abnormal score는 O2가 O3보다 크게 끔 만드려는 것이 LOF의 개념 - 즉, 데이터 ..

Chi-Square Distribution (카이제곱분포) - 표준정규분포들의 제곱의 합을 의미 - 카이제곱 분포 : right skewed된 분포 카이제곱 분포는 어디에 사용? - - 자유도 : 샘플수(n) - 1, 1은 평균값으로 자유롭지 않아서, 확인해야하는 자유로운 관측치는 n-1이기 때문에 이것을 자유도라 부름 or permutation 문제에서 마지막은 무조건 한개가 남아 선택권이 없다. 예를 들면 5명이 5개의 물건을 선택하는데, 4명이 선택을 하고 나면, 나머지 한명은 자연스럽게 남은 1개만 가져가기때문에 선택의 여지가 없다. 선택권은 실질적으로 4명에게 있는 것이므로 5-1 = 4 가 자유도가 된다. 참조 고려대 인공지능공학연구소 김성범교수님 유튜브 https://www.youtube.c..

Individual conditional expectation (ICE) plot - PDP는, 모델에서 특정 feature가 target에 어떤 영향을 어떻게 주는지 한눈에 파악하는 플롯 - 예를 들어, 선형 회귀에서는 어떤 변수에 대한 회귀계수를 기울기로 하여 그려보면, 해당 변수와 target이 양의 선형 관계인지, 음의 선형 관계인지 확인 가능 - 평균을 내지 않고 모든 선을 그려버리는 것이 바로 ICE plot입니다! 모든 선을 그린다는 것은, 전체 n개의 샘플에 대한 값을 그리고, n개의 line이 나오는 것을 의미함 - PDP에서는 확인하기 어려웠던 feature 간의 교호작용 확인 가능 PDP vs ICE - target은 회사에서 받는 bonus이고, 변수에는 experience(경력)와..