일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- API Gateway
- Airflow
- tensorflow text
- Counterfactual Explanations
- API
- Retry
- youtube data
- grad-cam
- XAI
- GCP
- chatGPT
- BigQuery
- GenericGBQException
- session 유지
- airflow subdag
- subdag
- spark udf
- requests
- flask
- 상관관계
- hadoop
- top_k
- integrated gradient
- gather_nd
- TensorFlow
- UDF
- 공분산
- 유튜브 API
- correlation
- login crawling
- Today
- Total
목록Statistical Learning (55)
데이터과학 삼학년
선형모델의 대표적인 선형회귀는 지도학습 모델이다. 특히 LR은 모델의 해석과 추론에 매우 용이하지만, 복잡한 문제에 대한 예측정확도가 떨어지는 단점이 있다. 선형회귀는 많은 알고리즘의 기초 토대로 사용되고 있으며 deep learning의 구조를 보면 결국 딥러닝도 선형으로 만든 조합이다라고 볼 수 있다. 1. 선형회귀선형회귀는 단순선형회귀와 다중선형회귀로 나눌 수 있는데이것은 predictor X의 갯수 차이라고 보면된다. 기본 식은 아래와 같다. 2. 모델 추정 방법대표적인 Parametirical model이라 볼수 있다.그렇다면 선형회귀가 각 파라미터의 계수값을 추정하기 위해서 사용하는 것이 최소자승법이다. 3. 모델 평가방법모델의 평가방법은 R스퀘어를 통한 모델의 정확성 정도나 p-value를 ..
t-statistic(t-통계량)과 p-value는 선형회귀분석에서 모델의 적합성과 predictor X와 response Y간의 관계를 규명하는데 중요한 평가요소이다. t-statistic을 이해하기 위해 먼저 null hypothesis(영가설)를 이해해야한다. 선형적인 관계가 있냐 없냐라는 기준을 잡기위해 먼저 영가설을 세운다. 영가설은 X와 Y는 관계가 없다! --> 즉 이가설을 위배하게 되면 X와 Y는 관계를 가지는 것으로 볼 수 있다. 이때, 영가설을 채택할 것인지 기각할 것인지에 대한 기준을 t-통계량을 활용한다. t-통계량은 쉽게 말하면 [추정된 파라미터값 / 표준편차(파라미터값)] 으로 볼 수 있다. 아래그림처럼 t-통계량으로부터 우리는 p-value를 구할 수 있다. 즉, t-통계량이 ..
- 추정 오차 (Estimation Error) `표본 집단에 기초해 산출된 기대값(추정값)`과 `확률시행 결과의 관측값`과의 차이 . 즉, 회귀직선(추정곡선) 등을 통해 얻은 `추정값`과 `실제 관측치`와의 차이 추정치와 실제값의 차이 - 잔차 (Residual, Fitting Error) 모집단에서 추출한, 표본들의 평균(표본평균)과 개별 표본값 간의 `편차`를 말하나, . 주로, `추정 오차 (Estimation Error)`와 거의 같은 의미를 지님 표본의 평균과 표본값의 차이
여러개의 독립변수와 여러개의 종속변수를 분석할 수 있다. 다중 독립변수, 다중 종속변수 분석에 용이함 1. 개념 구조방정식 모델링(構造方程式 - , 영어: structural equation modeling, SEM)은 경로 분석, 회귀 분석, 요인 분석이 합성되어 발전된 통계 방법이다. 구조방정식 모델링의 특징은 직접 측정할 수 없는 잠재변수(Latent variable)를 분석에 포함시킬 수 있다는 것이다. 따라서 사회과학 분야에서 각광받아온 방법론이나, 최근에는 자연과학 분야에서도 응용하려는 움직임이 나타나고 있다. 구조 방정식 모형에서 인과관계 모형을 밝혀내기 위해서는 측정이 타당하고 신뢰할 수 있어야 하며 충분한 사례 수가 필요하다. 변인이 많아지면 분석에 요구되는 사례수가 늘어나며, 인과 모형..
[사회통계]분석의 종류 독립변수-종속변수 1. 빈도분석(Frequency) 빈도분석은 원천 데이터의 내용들이 도수분포표상에서 어떠한 분포적 특성을 가지고 있는지를 파악하는 데 이용되고 있다. 이들 분포들의 특성인 통계량들은 첫째, 빈도, 상대적 빈도, 누적빈도와 같은 도수분포표로 구성되어 있다. 둘째, 최빈값, 중앙값, 산술평균과 같은 중심화 경향을 나타내는 통계량들로 구성되어 있다. 셋째, 범위, 평균편차, 분산, 표준편차 등으로 이들은 분산도를 나타내고 있다. 또한 이같은 특성치들을 하나의 바차트나 히스토그램으로 그래픽 처리하여 나타내는데 있어 빈도분석이 널리 이용되고 있다. 2. 기술통계분석(Descriptive) 기술통계분석은 요약 통계량을 계산하고 표준화된 변수값들을 데이터 파일에 저장한다. 기..
그 중에서도 제일 와 닿았던 부분은 R-square에 대한 내용이다. 어렴풋하게 알고 있던 내용을 직관적으로 와닿게 설명하고 있어서, 여기에 정리해본다. 아래 PPT는 Data Analysis with Python에서 발췌한 내용이다. R-square은 평균 제곱 오차, MSE (Mean squared error) 로부터 계산된다. 즉 1-(추정 모형의 MSE / 평균 관측 값의 MSE) 이다. 위 그림에서 파란 선은 회귀선(Regression line), 파란 박스는 회귀선의 MSE, 빨간 선은 관측 데이터 모형(data point), 빨간 박스는 관측 데이터 모형의 MSE 이다. 위 그래프에서 보면 파란 박스의 면적이 빨간 박스보다 작은 것을 알 수 있다. 즉, 회귀선(Regression line)의..
Statistical Learning : data를 통해서 pattern을 찾고, 해석가능한 형태의 모델을 구축함으로써 예측(회귀)이나 분류 문제 등을 풀어내는 통계적인 방법이라 이해됨 가령 한 제품의 판매수를 예측하기위해 TV, Radio, Newspaper의 광고와의 인과관계를 본다고 하면 각 X는 Y와 선형적인 관계를 가지고 있고, 그렇다면 위 3개 광고를 동시에 고려하여 판매수를 예측한다면 어떨까? 라는 개념이다. 어떤 변수를 가지고 모델을 만드는 방법은 크게 두가지(Parametric, Non-Parametric)로 나눌 수 있다. Parametric model : 모델의 형태를 가정하고, 데이터를 통해(학습을 통해) 각 파라미터를 추정하여 모델을 완성(lr, LDA, Naive Bayes, 단..