일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- correlation
- top_k
- login crawling
- GenericGBQException
- API
- Counterfactual Explanations
- hadoop
- grad-cam
- chatGPT
- requests
- Retry
- 유튜브 API
- BigQuery
- API Gateway
- subdag
- session 유지
- 공분산
- Airflow
- tensorflow text
- gather_nd
- UDF
- TensorFlow
- GCP
- integrated gradient
- flask
- 상관관계
- airflow subdag
- spark udf
- youtube data
- XAI
- Today
- Total
목록Statistical Learning (58)
데이터과학 삼학년

생존 분석(Survival Analysis) 이론이란? 생존 분석은 영어로 Survival Analysis 라고 하며, 어떤 사건의 발생 확률을 시간이라는 변수와 함께 생각하는 통계 분석 및 예측 기법이다. 보통 의료계 임상 실험에서 주로 사용되는 이론이며, IT 업계에서도 사용될 수 있는데 대표적으로 서비스 고객의 이탈확률을 구하고자 할 때 사용된다. 생존 분석 이론에는 몇 가지 주요 개념들이 있는데 이는 다음과 같다. 시간 (time) : 생존분석을 시행할 때 주로 시간 경과에 따른 위험도나 생존도를 구하는데 이 때 두는 독립변수로 시간이 있다. 상대적 시간이며, 분석하고자 하는 대상을 관찰하기 시작한 시점부터 0으로 카운트 됨 사건 (event) : 보통 생존의 반대인 이탈, 죽음 등을 가리키며, ..

어떤 이벤트에 대해 일어날 확률을 알고 싶다.예를 들어, 압정의 앞과 뒤가 나올 확률을 계산하고 싶을때,우리는 계속된 Trials의 결과를 이용해 아래와 같은 확률 분포를 구할 수 있다.discreate probability distribution (이산확률분포) 위 자료처럼 앞면이 나올 확률을 θ라고 하면 뒷면이 나올확률은 1-θ로 나타낼 수 있고,앞면3번, 뒷면2번이 나올 확률은 각 확률의 차승을 통해 구할 수 있다. 역으로 확률 쎄타가 주어졌을 때, 우리가 원하는 이벤트인 D가 발생할 확률은P(D|θ) 로 나타낼수 있다.P(D|θ) 를 최대로 하는 θ^ 을 MLE를 통해 구할 수 있다. MLE는 아래와 같이 차승된형태의 확률을 구하기 위해서 ln을 이용해 간단화 할 수 있고결국, θ^ = aH / ..

회귀분석의 가정 (데이터관련) 오차항은 평균이 0이고 분산이 일정한 정규 분포를 갖는다. 독립변수와 종속변수는 선형 관계이다. 오차항은 자기 상관성이 없다. 데이터에 아웃라이어가 없다. 독립변수와 오차항은 서로 독립이다. 독립변수 간에서는 서로 선형적으로 독립이다. 따라서 만약 실제 데이터가 이런 가정을 충족하지 않는다면, 고전적 선형 회귀 모델은 실제 데이터를 정확히 반영하지 못하게 되므로 다른 방법을 사용해야 합니다. 일반적으로 알려진 가이드라인은 다음과 같습니다. 회귀분석 가정의 한계 극복 방법 독립 변수와 종속 변수가 선형 관계가 아닌 경우: Polynomial regression, Generalized Additive Model (GAM) 오차항의 확률분포가 정규분포가 아닌 경우: General..
모수 / 비모수 방법 비교 모수적 방법(parametric method) 정규성을 갖는다는 모수적 특성을 이용하는 방법 비모적 방법(nonparametric method) 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나, 군당 30미만의 소규모 실험에서는 정규분포임을 가정할 수 없음 이러한 경우, 자료를 크기순으로 배열하여 순위를 매긴 후 순휘합을 통해 차이를 비교하는 순위합 검정 이용 가능 이러한 것은 비모수적 방법 중 하나임 분석 기법 모수통계 분석방법 빈도분석, T-test ,분산분석(ANOVA), 상관관계분석(correlation), 회귀분석(regression), 판별분석(discriminant analysis), 요인분석(factor analysis), 군집분석(cluster analys..

OLS (Ordinary Least Square) - 주로 선형회귀를 추정하는 방법에 사용 - 데이터에 이상치가 없다면, 좋은 추정이 가능함 - 어떤 추가적인 가정을 필요로 하지 않는다는 장점이 있음 > 다만, 이상치가 있을 경우, ROBUST한 결과를 얻기 어려움 Note: This is the same as minimizing the residuals of the regression model. MLE (Maxium Likelihood Estimation) - 주로 로지스틱 회귀(or probit)를 추정하는데 사용 - 데이터 분포가 특정 확률분포(정규분포) 를 따른 다는 가정이 있음 - 분석 결과가 ROBUST 하지만, 데이터 자체가 정규분포를 따르지 않을 경우, 실제와의 차이가 존재 The ord..

공분산 : 각 두 확률변수간의 편차곱의 기대값 공분산의 경우, 비교하는 확률 변수간 스케일로 인해 실제 관계가 높더라고 수치자체는 낮게 나올 수 있다. 이러한 문제를 해결하기위해 공분산을 스케일링하는 개념이 상관계수라고 할 수 있다. x와 y값이 얼마나 함께 같이 변동하는가 상관계수 : 공분산을 스케일링하는 개념 확률변수X가 있을때 우리가 흔히 이 분포를 나타낼때 쓰는것이 첫번째로 평균이고 두번째로 분산이다. 평균으로써 분포의 중간부분을 알아내고 분산으로써 분포가 얼마나 퍼져있는지 알아낸다. 더 알고싶으면 Skewness 혹은 직접 시각화 해보거나 방법이 있지만 우선 가장 쉽고 잘표현되는것이 평균과 분산이다. 그렇다면 확률변수가 2가지일때 이 확률분포들이 어떤모양으로 되어있는지를 알고싶을때 가장 먼저 X..

Q-Q Plot 데이터의 정규성을 파악할때, QQ plot을 이용해 확인할수 있다. 이론적으로 데이터가 정규성을 따를때 quantiles 값을 x 축 실제 데이터들의 quantiles 값을 y 축 표현하게 된다. 이렇게 되면 데이터가 완전한 정규분포를 이루게 되면 아래와 같은 그림이 나오게 된다. 데이터에 skewed 가 있을때 Q-Q Plot Figure. 1. 분위수 대 분위수 플롯(Q-Q plot, quantile-quantile plot)[각주:1] ⑴ (참고) 분위수(quantile) ① 분위수 함수 : 누적분포함수 Φ의 역함수 정의역 :{x | 0 ≤ x ≤ 1} 치역 : 관심 있는 집단의 통계량 ② 구간의 개수에 따라 100분위수(percent), 4분위수(quartile) 등이 존재 ⑵ 정..

큰 수의 법칙 vs 중심극한의 정리 > 표본의 크기를 크게 하냐?! --> 큰 수의 법칙 > 표본의 갯수를 많이 뽑냐?! --> 중심 극한의 정리 큰 수의 법칙 (Law of Large Numbers) - 표본집단들의 평균과 분산에 대한 법칙 - 어떤 모집단에서 표본집단들을 추출할 때, 각 표본집단의 크기가 커지면 그 표본집단들의 평균은 모집단의 평균과 같아지고, 표본집단들의 분산은 0에 가까워 진다. >> 한번 측정해서 평균을 구한 결과보다 여러번 시행해서 낸 평균값이 더 정확하다. 중심극한의 정리(Central limit theorem) - 표본집단들의 평균이 갖는 분포에 대한 법칙 - 그 어떠한 모양의 임의의 분포에서 추출한 표본집단들의 평균(표본평균)의 분포는 정규분포를 이룬다. (심지어 모집단이..