일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- UDF
- chatGPT
- grad-cam
- subdag
- gather_nd
- TensorFlow
- requests
- flask
- 유튜브 API
- GCP
- login crawling
- correlation
- 상관관계
- XAI
- API
- API Gateway
- GenericGBQException
- youtube data
- hadoop
- Counterfactual Explanations
- BigQuery
- spark udf
- airflow subdag
- 공분산
- session 유지
- tensorflow text
- top_k
- integrated gradient
- Airflow
- Retry
- Today
- Total
데이터과학 삼학년
PDP (Partial Dependence Plot) 본문
PDP(Partial Dependence Plot)
- model agnostic한 XAI기법으로 모델에 상관없이 적용할 수 있는 방법
- ‘partial’ 회귀 계수, 확인하고자하는 해당 변수를 한 단위(1-unit) 증가시킬 때 변화하는 y(target)의 크기를 통해 해석하는 방법과 같이 관심있는 특정 입력변수를 제외한 다른 입력변수들의 값은 고정시킨 상태(상수 취급)에서 관심있는 입력변수의 값을 변화시키며(변수 취급) 예측값을 계산한 후, 그 값들의 평균을 내는 방식
- 관심있는 입력변수의 값을 변화시키는 범위는 해당 변수의 최솟값과 최댓값 사이로 하고, 보통 일정 간격으로 그리드를 만들어 사용
- 입력변수 값의 그리드를 x축에 표시하고, 이 값을 넣어 계산된 편의존성 값을 y축에 표시하여 PDP를 그릴 수 있음
분석예시
- 교육 수준이 높아질수록, 1(연봉이 $50,000이상)로 분류될 확률이 높은 걸 확인할 수 있음
- capital.gain의 경우, 3000에서 한번 치솟고, 그 뒤에 4000 이상부터 1로 분류될 확률이 높아집니다. 연속형 변수이기 때문에, PDP를 구하는데 시간이 위 두 변수들에 비해 오래 걸림
- PDP를 특정 입력변수 값의 변화에 따른 예측값의 평균적인 변화를 관찰할 수 있다는 장점이 있음
- 하지만 평균을 구하는 과정에서 상호작용(interaction)의 존재 같은 데이터의 특성이 함께 뭉게질 수 있다는 단점 존재
- 평균을 구하지 않고 그리드 값의 변화에 따른 모든 관측치의 예측값을 그래프에 표시하는 방법이 ICE Plot(Individual Conditional Expectation Plot)임
참고
https://soohee410.github.io/iml_pdp
https://scikit-learn.org/stable/modules/partial_dependence.html
'Explainable AI' 카테고리의 다른 글
LIME 결과 소수점 자리 핸들링 (0) | 2022.07.21 |
---|---|
ICE (Individual conditional expectation) (0) | 2022.06.01 |
SHAP (SHapley Additive exPlanations) (0) | 2020.08.19 |
LIME for Text (0) | 2020.08.03 |
LIME (Local Interpretable Model-agnostic Explanation) (0) | 2020.08.03 |