일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- integrated gradient
- TensorFlow
- correlation
- 공분산
- top_k
- login crawling
- Retry
- flask
- UDF
- spark udf
- Counterfactual Explanations
- session 유지
- API
- BigQuery
- 유튜브 API
- Airflow
- youtube data
- API Gateway
- XAI
- chatGPT
- airflow subdag
- GenericGBQException
- gather_nd
- GCP
- tensorflow text
- requests
- grad-cam
- hadoop
- subdag
- 상관관계
- Today
- Total
목록Explainable AI (11)
데이터과학 삼학년
SHAP을 활용한 기여도 시각화 - 의사결정 트리는 모델에 대한 해석이 쉽지만 많은 변수를 볼수 없고, 랜덤 포레스트는 모든 변수를 확인할 수는 있으나 feature 값이 커지면 결과의 변화정도를 알기 어려움 - 위와 같은 문제 해결을 위해 SHAP을 이용할 수 있음 (treeSHAP) - 아래 결과는 SHAP summary_plot - 세로축은 Feature importance 순서대로 나열 가로축은 SHAP value(0)를 기준으로 왼쪽일 수록 음의 방향으로 기여, 오른쪽일수록 양의 방향으로 기여 feature의 값을 의미하는 색 : 파란색은 낮은값, 빨간색은 높은 값 파란색이 왼쪽, 빨간색이 오른쪽으로 넓게 퍼져 있으면 feature값은 반응변수와 강한 양의 상관관계가 있고, 반대면 음의 상관관계..
Counterfactual Explanations은 XAI에서 중요한 개념 중 하나로, 머신러닝 모델의 예측 결과를 해석하는 데 사용됩니다. 이번 글에서는 Counterfactual Explanations의 개념과 예시, 그리고 샘플 코드를 다룰 것입니다. Counterfactual Explanations란? Counterfactual Explanations은 한국어로 "대조적 설명"이라고도 불리며, 머신러닝 모델이 내놓은 결과를 해석하는 방법 중 하나입니다. 머신러닝 모델이 입력 데이터를 기반으로 한 예측을 내놓았을 때, Counterfactual Explanations은 이 예측 결과를 해석하기 위해, 어떤 입력 데이터를 조작하면 예측 결과가 바뀔지 예측하는 방법을 사용합니다. 간단한 예시로, 예측 ..
Grad-CAM(Gradient-weighted Class Activation Mapping) 딥러닝 모델이 어떤 부분을 보고 특정 클래스를 판단했는지를 시각화하는 기술 -> 이미지에서 주로 사용 -> 텍스트에서도 사용 가능 이를 통해 모델이 어떤 부분을 주로 활용하는지를 알 수 있어 모델의 해석성(interpretability)을 높일 수 있음 Grad-CAM은 기존의 Class Activation Mapping(CAM)을 발전시킨 기술로, CAM은 Global Average Pooling(GAP)을 사용하여 클래스에 대한 중요도를 계산 이와 달리 Grad-CAM은 전체적인 특성 맵의 중요도가 아닌 클래스에 대한 중요도를 계산 Grad-CAM 계산 단계 1. 모델의 gradient를 계산 - 모델의 g..
Feature Interaction - Feature간의 상호작용의 정도를, partial dependance value를 기반으로 추정하는 방식 - "전체는 부분의 합보다 크다" 라는 아리스토텔레스의 말에서 얻은 아이디어일까? - 쉽게 예시로 설명해보면 feature A, B가 있다고 하자. Feature A = 10, Feature B = 5 일때, Feature A + Feature B = 15라고 예측할수 있지만, 실제 Feature A + Feature B = 20이다. 이 현상을 통해 우리는 Feature A와 Feature B는 서로 같이 쓰일때 +5의 상호작용 효과가 있다고 추론할 수 있다는 개념 Friedman의 H-statistics - Feature Interaction을 수치로 구하..
Accumulated Local Effects - global surrogate로 각 데이터에 대한 해석이 아닌 모델에 대한 해석 방법 - 어떻게 feature가 모델의 예측결과에 영향을 미치는지 평균적으로 보는 방법 - PDP(Partial Dependance Plot)과 유사하지만, PDP는 feature간 상관관계가 있을때 해석이 어려운 단점을 가지고 있음 - 이를 보완한 것이 ALE라고 생각하면 됨 - ALE plot은 PDP보다 더 빠르고 편향되지 않은 대안 PDP(Partial Dependance Plot)의 한계 - PDP의 경우는 모델의 feature가 강한 상관관계가 있는 경우 partial feature의 의존도를 신뢰하기 어려운 문제가 있음 - 방의 갯수, 거실 크기를 이용해 집값을 ..
LIME 결과 소수점 자리 핸들링 현황 및 필요성 - LIME의 feature별 임계값 기준이 소숫점 둘째자리까지 표시되게 되어 있음 예) [('feature1> -0.20', 0.21103299565738834), ('feature2> -0.02', 0.2084224450246051), ('feature3 -0.19212', 0.21103299565738834), ('feature2> -0.02125', 0.2084224450246051), ('feature3
Individual conditional expectation (ICE) plot - PDP는, 모델에서 특정 feature가 target에 어떤 영향을 어떻게 주는지 한눈에 파악하는 플롯 - 예를 들어, 선형 회귀에서는 어떤 변수에 대한 회귀계수를 기울기로 하여 그려보면, 해당 변수와 target이 양의 선형 관계인지, 음의 선형 관계인지 확인 가능 - 평균을 내지 않고 모든 선을 그려버리는 것이 바로 ICE plot입니다! 모든 선을 그린다는 것은, 전체 n개의 샘플에 대한 값을 그리고, n개의 line이 나오는 것을 의미함 - PDP에서는 확인하기 어려웠던 feature 간의 교호작용 확인 가능 PDP vs ICE - target은 회사에서 받는 bonus이고, 변수에는 experience(경력)와..
PDP(Partial Dependence Plot) - model agnostic한 XAI기법으로 모델에 상관없이 적용할 수 있는 방법 - ‘partial’ 회귀 계수, 확인하고자하는 해당 변수를 한 단위(1-unit) 증가시킬 때 변화하는 y(target)의 크기를 통해 해석하는 방법과 같이 관심있는 특정 입력변수를 제외한 다른 입력변수들의 값은 고정시킨 상태(상수 취급)에서 관심있는 입력변수의 값을 변화시키며(변수 취급) 예측값을 계산한 후, 그 값들의 평균을 내는 방식 - 관심있는 입력변수의 값을 변화시키는 범위는 해당 변수의 최솟값과 최댓값 사이로 하고, 보통 일정 간격으로 그리드를 만들어 사용 - 입력변수 값의 그리드를 x축에 표시하고, 이 값을 넣어 계산된 편의존성 값을 y축에 표시하여 PDP..