일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- chatGPT
- GCP
- login crawling
- session 유지
- API Gateway
- 상관관계
- gather_nd
- youtube data
- XAI
- airflow subdag
- flask
- grad-cam
- subdag
- requests
- BigQuery
- 공분산
- GenericGBQException
- 유튜브 API
- Retry
- top_k
- API
- spark udf
- Airflow
- TensorFlow
- integrated gradient
- Counterfactual Explanations
- correlation
- tensorflow text
- UDF
- hadoop
- Today
- Total
목록Statistical Learning (58)
데이터과학 삼학년

Resampling의 기법을 이용한 학습, 예측 방법에 대해 알아본다. Samping이란 모집단에서 모집단을 대표할 수 있는 표본을 뽑아내는 것을 말한다. Resampling methods은 이러한 sample을 반복적으로 뽑아내고 이를 이용해 model을 학습, 예측(검증)하는 기법을 말한다. 하나의 training set에 대해 수많은 sample을 뽑아내고, 이를 모델에 적합시켰을때 각 sample로 부터 추출된 결과를 비교한다. 즉, 데이터가 달라짐에 따라 결과가 어느 범위내에 있을지에 대해 평가가 가능하다. 이 장에선 대표적인 methods인 Cross-validation과 Bootstrap에 대해 알아본다 Cross-Validation test error VS training error - t..

분류문제를 풀기 위한 기초적인 방법들에 대해 소개한다. 선형회귀로는 분류문제를 해결하기가 어렵다. 물론 Binary Classification의 경우, True or False의 식으로 값이 커질 수록 True에 가깝다는 식으로 회귀모형으로 분류문제를 풀 수도 있지만 추정된 값이 1이 넘어가는 경우 혹은 값이 음수인 경우도 발생하기 때문에 사실 좋은 방법은 아닌것으로 보인다. 물론 1,2,3을 정도의 차이를 가지는 레이블(1:보통,2:위험,3:아주위험 등)의 분류에서는 유용하게 쓸 수도 있겠다. 그러나 분류문제는 분류에 맞게 고안된 방법을 쓰는 것이 가장 좋다 Logistic Regression 선형 모형을 log를 이용해 변환한 아래와 같은 식을 사용하면 0~1사이의 확률값으로 각 레이블을 분류할 수 ..

Kullback–Leibler divergence 은 두 확률간의 분포의 차이정도를 정량적으로 측정하는 방법이다. 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산한다. 상대 엔트로피(relative entropy), 정보 획득량(information gain), 인포메이션 다이버전스(information divergence)라고도 한다. KL Divergence를 구하는 방법은 두확률간의 cross-entropy에서 자신의 entropy를 빼는 방법이다. 엔트로피는 정보이론에서 정보량을 의미하므로, KL Divergence는 정보량의 차이를 나타낸다고 볼 수 있다. 즉, KL-Divergence의 값이 작을 수록 두분포는 유사..

선형모델의 대표적인 선형회귀는 지도학습 모델이다. 특히 LR은 모델의 해석과 추론에 매우 용이하지만, 복잡한 문제에 대한 예측정확도가 떨어지는 단점이 있다. 선형회귀는 많은 알고리즘의 기초 토대로 사용되고 있으며 deep learning의 구조를 보면 결국 딥러닝도 선형으로 만든 조합이다라고 볼 수 있다. 1. 선형회귀선형회귀는 단순선형회귀와 다중선형회귀로 나눌 수 있는데이것은 predictor X의 갯수 차이라고 보면된다. 기본 식은 아래와 같다. 2. 모델 추정 방법대표적인 Parametirical model이라 볼수 있다.그렇다면 선형회귀가 각 파라미터의 계수값을 추정하기 위해서 사용하는 것이 최소자승법이다. 3. 모델 평가방법모델의 평가방법은 R스퀘어를 통한 모델의 정확성 정도나 p-value를 ..

t-statistic(t-통계량)과 p-value는 선형회귀분석에서 모델의 적합성과 predictor X와 response Y간의 관계를 규명하는데 중요한 평가요소이다. t-statistic을 이해하기 위해 먼저 null hypothesis(영가설)를 이해해야한다. 선형적인 관계가 있냐 없냐라는 기준을 잡기위해 먼저 영가설을 세운다. 영가설은 X와 Y는 관계가 없다! --> 즉 이가설을 위배하게 되면 X와 Y는 관계를 가지는 것으로 볼 수 있다. 이때, 영가설을 채택할 것인지 기각할 것인지에 대한 기준을 t-통계량을 활용한다. t-통계량은 쉽게 말하면 [추정된 파라미터값 / 표준편차(파라미터값)] 으로 볼 수 있다. 아래그림처럼 t-통계량으로부터 우리는 p-value를 구할 수 있다. 즉, t-통계량이 ..

- 추정 오차 (Estimation Error) 표본집단에기초해산출된기대값(추정값)과 확률시행결과의관측값과의 차이 . 즉, 회귀직선(추정곡선) 등을 통해 얻은 추정값과 실제관측치와의 차이 추정치와 실제값의 차이 - 잔차 (Residual, Fitting Error) 모집단에서 추출한, 표본들의 평균(표본평균)과 개별 표본값 간의 편차를 말하나, . 주로, 추정오차(EstimationError)와 거의 같은 의미를 지님 표본의 평균과 표본값의 차이

여러개의 독립변수와 여러개의 종속변수를 분석할 수 있다. 다중 독립변수, 다중 종속변수 분석에 용이함 1. 개념 구조방정식 모델링(構造方程式 - , 영어: structural equation modeling, SEM)은 경로 분석, 회귀 분석, 요인 분석이 합성되어 발전된 통계 방법이다. 구조방정식 모델링의 특징은 직접 측정할 수 없는 잠재변수(Latent variable)를 분석에 포함시킬 수 있다는 것이다. 따라서 사회과학 분야에서 각광받아온 방법론이나, 최근에는 자연과학 분야에서도 응용하려는 움직임이 나타나고 있다. 구조 방정식 모형에서 인과관계 모형을 밝혀내기 위해서는 측정이 타당하고 신뢰할 수 있어야 하며 충분한 사례 수가 필요하다. 변인이 많아지면 분석에 요구되는 사례수가 늘어나며, 인과 모형..

[사회통계]분석의 종류 독립변수-종속변수 1. 빈도분석(Frequency) 빈도분석은 원천 데이터의 내용들이 도수분포표상에서 어떠한 분포적 특성을 가지고 있는지를 파악하는 데 이용되고 있다. 이들 분포들의 특성인 통계량들은 첫째, 빈도, 상대적 빈도, 누적빈도와 같은 도수분포표로 구성되어 있다. 둘째, 최빈값, 중앙값, 산술평균과 같은 중심화 경향을 나타내는 통계량들로 구성되어 있다. 셋째, 범위, 평균편차, 분산, 표준편차 등으로 이들은 분산도를 나타내고 있다. 또한 이같은 특성치들을 하나의 바차트나 히스토그램으로 그래픽 처리하여 나타내는데 있어 빈도분석이 널리 이용되고 있다. 2. 기술통계분석(Descriptive) 기술통계분석은 요약 통계량을 계산하고 표준화된 변수값들을 데이터 파일에 저장한다. 기..