일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- hadoop
- XAI
- UDF
- session 유지
- GenericGBQException
- grad-cam
- GCP
- chatGPT
- subdag
- requests
- 유튜브 API
- API
- Airflow
- spark udf
- API Gateway
- Retry
- gather_nd
- Counterfactual Explanations
- TensorFlow
- integrated gradient
- login crawling
- tensorflow text
- airflow subdag
- flask
- BigQuery
- 상관관계
- correlation
- youtube data
- 공분산
- top_k
- Today
- Total
목록Statistical Learning (58)
데이터과학 삼학년

1. Outliers. response Y에 대한 outlier가 존재하면 모형 자체에 큰 영향을 주지는 못하지만 모델의 평가부분에서는 영향을 줄 수 있다는 개념이다. > 실제 y 값이 추정된 y(hat) 값에 영향을 미치는 개념 response Y에 아웃라이어가 있으면 당장 추정되는 모델에 대해 큰변화를 주지는 않지만 RSE나 R2 와 같은 평가척도는 낮게 나올 수 있어, 올바른 모델임에도 해석이 좋지 않게 나올 수 있다. 2. High-leverage points. predictor X에 outlier가 있을 경우의 예를 말하는데, 이 부분은 매우 신중해야한다. 왜냐면 X의 일부를 제거하게 되면 모형 자체가 변할 수 있기 때문이다. Comparing the left-hand panels of Figu..

통계의 대표적 가정인 귀무가설 (null hypothesis) 와 대립가설 (alternative hypothesis) 채택사이에서 발생하게 되는 오류의 유형을 1종 오류, 2종 오류로 나눠놓았다. 1종 오류와 2종 오류를 예시를 통해 알아보자. 오류 가설검정 또는 표본조사 1종 오류 귀무가설이 참인데 기각하고 대립가설 채택 2종 오류 귀무가설이 거짓인데 채택하고 대립가설 기각 오류 위험 설명 1종 오류 (Type I error) 알파 위험 (α risk) 잘못된 부적정 의견을 표명하는 오류 기각(Rejection)의 오류 과소신뢰의 오류 비효율적 감사(피감사인의 요청에 따라 재감사를 통해 오류가 정정될 것임) 2종 오류 (Type II error) 베타 위험 (β risk) 잘못된 적정 의견을 표명하는..

다중 회귀 (multiple regression) - 다중회귀분석은 다중의 독립변수가 있는 형태 (x1, x2) - 다중회귀분석시 독립변수간 상관관계가 높아 발생하는 다중공선성(multicollinearity)문제 처리가 필요 > 다중공선성 확인은 분산팽창지수 (Variation Inflation Factor ; VIF) 로 확인 가능 - 변수 제거 등 단일회귀분석의 경우, 종속변수와 독립변수를 나눈 feature 분포를 토대로 대체 가능 다항 회귀 (polynomial regrsssion) - 다항회귀분석은 독립변수의 차수를 높이는 형태 - 다차원의 회귀식인 다항 회귀 분석으로 단순 선형 모델의 한계를 어느정도 극복할 수 있음 Feature selection 출처: https://bioinformati..

회귀분석을 하기위해 사용하는 방법은 OLS (Ordinary Least Squares, 표준 회귀분석) 이다. OLS는 BLUE 라는 개념이 뒷받침 되어야 한다. BLUE : Best Linear Unbiased Estimator 로 가장 최적의 추정방법을 말한다. OLS 는 GM(Gauss-Markov) 의 5가지 가정을 충족시켜야 한다 GM ASSUMTIONS은 아래와 같다. 위 각 가정은 아래 그림과 같은 관계성이 있어서 OLS에서 꼭 지켜져야한다 위 5가지 가정 중 충족이 가장 어려운 것은 endogeneity (내생성) 문제이다. endogenetiy (내생성) 문제는 곧 Consistent에 영향을 주게되어 BLUE를 충족하는데 큰 장애가 된다. 여기서 endogenetiy (내생성) 에 대해..

Ridge VS Lasso regression, Visualized! Linear regression 일반적인 linear regression을 찾는 방법 기울기에 따라 loss 값을 표현한 그림은 오른쪽과 같고, 이때 가장 낮은 loss값을 갖는 기울기를 model로 선택하게 됨 규제가 없는 regression Regularization loss 에 무언가 함수를 더 추가하여 loss값을 조정하게 됨 예를 들면 l2 norm 규제를 준다고 하면, 아래 식처럼 줄 수 있음 Ridge regression L2 norm 을 규제로 갖는 regression model 람다 값에 따라 penalty 의 정도를 조절하는 모델을 만들 수 있음 Lasso regression L1 norm 을 규제로 갖는 regres..

상관계수 (correlation)의 종류에 대해 알아보고, 각 데이터의 종류에 맞는 상관관계 방법에 대해 소개한다.먼저 두개 자료의 상관관계를 비교할때크게 3가지 케이스로 나눌 수 있다.1. 연속형 - 연속형2. 범주형 - 범주형3. 연속형 - 범주형위 각 세가지 케이스에 대해 알맞는 correlation 방법을 살펴보자. 1. 연속형-연속형연속형-연속형의 상관계수 범위는 -1 ~ 1 사이로 나타낼 수 있다아래와 같이 크게 3가지 방법이 있다 Pearson correlation- 연속형-자료가 정규분포임을 가정하는 모수적 추론 방법이다- 위 방법은 자료간의 상관정도가 어느정도인지를 추론할 수 있는 장점이 있다예) 국어점수와 영어점수간의 상관관계 Kendall correlation- 순위척도 자료형에 대..

Maximum Likelihood 목적 : 데이터 분포를 맞추기 위한 최적의 방법을 찾는 것 다양한 데이터의 분포가 있는데 분포에 데이터를 맞춰서 넣고 싶은 것 (sampling에서의 개념으로도 볼 수 있을 듯) 예를 들어 데이터 셋을 정규분포에 맞추고 싶다면 데이터의 평균값이 최대 우도값을 가지는 분포를 찾으면 됨 만약 정규분포를 데이터의 평균값보다 작은 곳으로 보내게 되면 데이터의 평균값의 likelihood는 매우 작은 값을 가지게 될 것 각 데이터마다 likelihood 값을 추정하여 최대 likelihood 값을 갖는 곳으로 분포를 만들면 됨 아래 그림은 최대 우도 추정으로 평균값을 계산한 케이스임 최대 우도 추정으로 표준편차는 어떻게 구할수 있을까? 표준편차를 기준으로 likelihood를 가..

Probability vs Likelihood Probability (확률) 분포의 범위의 확률 값 예) 몸무게가 60~70kg일 확률 쥐들의 몸무게 분포가 정규분포에 해당한다고 가정하자. 평균 : 32g, 표준편차 : 2.5, 최댓값 : 40g, 최소값: 24g 아래의 면적이 32~34g 일 확률을 의미함 Likelihood (우도, 가능도) 지점에서의 확률 (point) y axis의 값이라고 생각하면 됨 (point 확률값) 요약 확률은 고정 분포 아래영역이며, 우도는 data point의 확률 값을 의미 *** Maximum Likelihood (최대우도추정)는 분포 평균값 데이터가 Likelihood의 최대값이 되도록 만들어 데이터 분포를 가정한 분포에 가깝게 하는 과정을 의미함 출처 : htt..