일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- gather_nd
- GenericGBQException
- chatGPT
- 유튜브 API
- hadoop
- spark udf
- XAI
- GCP
- TensorFlow
- airflow subdag
- BigQuery
- requests
- grad-cam
- tensorflow text
- correlation
- top_k
- login crawling
- API
- session 유지
- Retry
- 공분산
- youtube data
- API Gateway
- flask
- subdag
- UDF
- integrated gradient
- 상관관계
- Counterfactual Explanations
- Airflow
- Today
- Total
목록Statistical Learning (55)
데이터과학 삼학년
모수 / 비모수 방법 비교 모수적 방법(parametric method) 정규성을 갖는다는 모수적 특성을 이용하는 방법 비모적 방법(nonparametric method) 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나, 군당 30미만의 소규모 실험에서는 정규분포임을 가정할 수 없음 이러한 경우, 자료를 크기순으로 배열하여 순위를 매긴 후 순휘합을 통해 차이를 비교하는 순위합 검정 이용 가능 이러한 것은 비모수적 방법 중 하나임 분석 기법 모수통계 분석방법 빈도분석, T-test ,분산분석(ANOVA), 상관관계분석(correlation), 회귀분석(regression), 판별분석(discriminant analysis), 요인분석(factor analysis), 군집분석(cluster analys..
OLS (Ordinary Least Square) - 주로 선형회귀를 추정하는 방법에 사용 - 데이터에 이상치가 없다면, 좋은 추정이 가능함 - 어떤 추가적인 가정을 필요로 하지 않는다는 장점이 있음 > 다만, 이상치가 있을 경우, ROBUST한 결과를 얻기 어려움 Note: This is the same as minimizing the residuals of the regression model. MLE (Maxium Likelihood Estimation) - 주로 로지스틱 회귀(or probit)를 추정하는데 사용 - 데이터 분포가 특정 확률분포(정규분포) 를 따른 다는 가정이 있음 - 분석 결과가 ROBUST 하지만, 데이터 자체가 정규분포를 따르지 않을 경우, 실제와의 차이가 존재 The ord..
공분산 : 각 두 확률변수간의 편차곱의 기대값 공분산의 경우, 비교하는 확률 변수간 스케일로 인해 실제 관계가 높더라고 수치자체는 낮게 나올 수 있다. 이러한 문제를 해결하기위해 공분산을 스케일링하는 개념이 상관계수라고 할 수 있다. x와 y값이 얼마나 함께 같이 변동하는가 상관계수 : 공분산을 스케일링하는 개념 확률변수X가 있을때 우리가 흔히 이 분포를 나타낼때 쓰는것이 첫번째로 평균이고 두번째로 분산이다. 평균으로써 분포의 중간부분을 알아내고 분산으로써 분포가 얼마나 퍼져있는지 알아낸다. 더 알고싶으면 Skewness 혹은 직접 시각화 해보거나 방법이 있지만 우선 가장 쉽고 잘표현되는것이 평균과 분산이다. 그렇다면 확률변수가 2가지일때 이 확률분포들이 어떤모양으로 되어있는지를 알고싶을때 가장 먼저 X..
Q-Q Plot 데이터의 정규성을 파악할때, QQ plot을 이용해 확인할수 있다. 이론적으로 데이터가 정규성을 따를때 quantiles 값을 x 축 실제 데이터들의 quantiles 값을 y 축 표현하게 된다. 이렇게 되면 데이터가 완전한 정규분포를 이루게 되면 아래와 같은 그림이 나오게 된다. 데이터에 skewed 가 있을때 Q-Q Plot Figure. 1. 분위수 대 분위수 플롯(Q-Q plot, quantile-quantile plot)[각주:1] ⑴ (참고) 분위수(quantile) ① 분위수 함수 : 누적분포함수 Φ의 역함수 정의역 :{x | 0 ≤ x ≤ 1} 치역 : 관심 있는 집단의 통계량 ② 구간의 개수에 따라 100분위수(percent), 4분위수(quartile) 등이 존재 ⑵ 정..
큰 수의 법칙 vs 중심극한의 정리 > 표본의 크기를 크게 하냐?! --> 큰 수의 법칙 > 표본의 갯수를 많이 뽑냐?! --> 중심 극한의 정리 큰 수의 법칙 (Law of Large Numbers) - 표본집단들의 평균과 분산에 대한 법칙 - 어떤 모집단에서 표본집단들을 추출할 때, 각 표본집단의 크기가 커지면 그 표본집단들의 평균은 모집단의 평균과 같아지고, 표본집단들의 분산은 0에 가까워 진다. >> 한번 측정해서 평균을 구한 결과보다 여러번 시행해서 낸 평균값이 더 정확하다. 중심극한의 정리(Central limit theorem) - 표본집단들의 평균이 갖는 분포에 대한 법칙 - 그 어떠한 모양의 임의의 분포에서 추출한 표본집단들의 평균(표본평균)의 분포는 정규분포를 이룬다. (심지어 모집단이..
1. Outliers. response Y에 대한 outlier가 존재하면 모형 자체에 큰 영향을 주지는 못하지만 모델의 평가부분에서는 영향을 줄 수 있다는 개념이다. > 실제 y 값이 추정된 y(hat) 값에 영향을 미치는 개념 response Y에 아웃라이어가 있으면 당장 추정되는 모델에 대해 큰변화를 주지는 않지만 RSE나 R2 와 같은 평가척도는 낮게 나올 수 있어, 올바른 모델임에도 해석이 좋지 않게 나올 수 있다. 2. High-leverage points. predictor X에 outlier가 있을 경우의 예를 말하는데, 이 부분은 매우 신중해야한다. 왜냐면 X의 일부를 제거하게 되면 모형 자체가 변할 수 있기 때문이다. Comparing the left-hand panels of Figu..
통계의 대표적 가정인 귀무가설 (null hypothesis) 와 대립가설 (alternative hypothesis) 채택사이에서 발생하게 되는 오류의 유형을 1종 오류, 2종 오류로 나눠놓았다. 1종 오류와 2종 오류를 예시를 통해 알아보자. 오류 가설검정 또는 표본조사 1종 오류 귀무가설이 참인데 기각하고 대립가설 채택 2종 오류 귀무가설이 거짓인데 채택하고 대립가설 기각 오류 위험 설명 1종 오류 (Type I error) 알파 위험 (α risk) 잘못된 부적정 의견을 표명하는 오류 기각(Rejection)의 오류 과소신뢰의 오류 비효율적 감사(피감사인의 요청에 따라 재감사를 통해 오류가 정정될 것임) 2종 오류 (Type II error) 베타 위험 (β risk) 잘못된 적정 의견을 표명하는..
다중 회귀 (multiple regression) - 다중회귀분석은 다중의 독립변수가 있는 형태 (x1, x2) - 다중회귀분석시 독립변수간 상관관계가 높아 발생하는 다중공선성(multicollinearity)문제 처리가 필요 > 다중공선성 확인은 분산팽창지수 (Variation Inflation Factor ; VIF) 로 확인 가능 - 변수 제거 등 단일회귀분석의 경우, 종속변수와 독립변수를 나눈 feature 분포를 토대로 대체 가능 다항 회귀 (polynomial regrsssion) - 다항회귀분석은 독립변수의 차수를 높이는 형태 - 다차원의 회귀식인 다항 회귀 분석으로 단순 선형 모델의 한계를 어느정도 극복할 수 있음 Feature selection 출처: https://bioinformati..