일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- flask
- top_k
- airflow subdag
- Airflow
- gather_nd
- login crawling
- GenericGBQException
- spark udf
- XAI
- GCP
- subdag
- API Gateway
- BigQuery
- 유튜브 API
- grad-cam
- UDF
- tensorflow text
- chatGPT
- Retry
- youtube data
- requests
- Counterfactual Explanations
- 상관관계
- hadoop
- correlation
- session 유지
- 공분산
- API
- integrated gradient
- TensorFlow
- Today
- Total
목록Statistical Learning (58)
데이터과학 삼학년

샘플링을 하다 보면 단순한 랜덤샘플링이 아니라 label별로 일정한 비율로 샘플링하기를 원할때가 있다. 이를 층화샘플링이라고 하는데, pandas dataframe에서 이것을 하는 방법이 있다...(label 컬럼으로 groupby를 하는 것!!!) 랜덤 샘플링 random_sample = df.sample(frac=0.20) ) random_sample.head() 층화 샘플링 - label별 20%로씩 샘플링 stratified_sample = df.groupby('').apply( lambda x: x.sample(frac=0.20) ) stratified_sample.head()
Structural Equation Modeling (SEM) - 통계학에서 사용되는 다중 변수 분석 기법으로, 여러 변수 간의 인과 관계를 모델링하여 분석하는 방법 - SEM은 변수들 간의 복잡한 상호작용과 인과관계를 모델링하고, 모델의 적합성을 평가하고 예측력을 검증할 수 있는 장점이 있음 - SEM은 일반적으로 두 가지 유형의 모델을 포함 첫 번째 유형은 측정 모델 : 다양한 변수들 간의 상호작용을 설명하기 위한 구조적 모델을 구축하기 전에 측정 방법론을 검증하기 위해 사용 두 번째 유형은 구조적 모델 : 변수들 간의 인과 관계를 포함하며, 관심 변수와 비관심 변수 간의 상호작용도 고려할 수 있음 - SEM은 통계적 모델링에 매우 유용하며, 교육 연구, 경영 연구, 사회과학 등에서 사용 SEM P..
심슨의 역설 (Simpson's paradox)은 데이터의 세부 그룹별로 일정한 추세나 경향성이 나타나지만, 전체적으로 보면 그 추세가 사라지거나 반대 방향의 경향성을 나타내는 현상을 의미 이 현상은 사회과학이나 의학 통계 연구에서 종종 발생 예시 치료법결석 크기 치료법 A 치료법 B 효과 비교 치료법결석 크기 치료법A 치료법B 작은 결석 그룹 1 93% (81/87) 그룹 2 87% (234/270) 큰 결석 그룹 3 73% (192/263) 그룹 4 69% (55/80) 모두 78% (273/350) 83% (289/350) 작은 결석과 큰 결석 모두에서 치료법 A의 성공률이 높게 나왔지만, 결석의 크기를 구분하지 않고 합친 경우에는 치료법 B의 성공률이 높은 결과가 나왔다. 이 사례에서는 결석의 크..
통계적 편향 (통계로 거짓말하기) - 통계가 탐정이라면 데이터는 단서에 해당함 - 분석된 결과에 대해서 편향은 없는지 경계하며 확인할 필요가 있음 선택 편향(Selection Bias) - 엉터리 표본으로 인해 모집단에 대해 잘못된 결론에 이르게 되는 현상 - 모집단에 속하는 구성원 모두가 표본으로 추출될 확률이 동일하지 않다면, 그 표본을 사용한 결과로 얻은 결론에도 문제가 있을 것 - 소비자 조사를 실시할 경우, 평균 급여가 높은 지역과 낮은 지역이 있는데 이 둘 한지역만 선택해서 표본을 뽑게 될 경우, 모집단의 결과가 왜곡될 수 있음 - 정치도 마찬가지로 특정 지역마다 선호하는 정치색이 있기때문에 표본 추출 자체에서 왜곡이 일어날 수 있음 - 표본이 좋을때는 표본 크기가 클수록 오차 범위가 줄기 때..

이중차분법 (Difference In Difference) - 원인과 결과간의 효과를 측정하기 위한 인과 추론 방법으로, 시계열적인 변화를 고려하여 효과 측정방법으로 이해됨 - 인과 추론에서는 실험군(Treated Group)과 대조군(Control Group)간의 차이가 있음을 인정하고 비교하는 방법으로, 비실험군이(unTreated Group)이 처치를 받지 않았다면 그 결과는 대조군(Control Group)의 결과(트렌드 변화)와 같다이다. → parallel trend assumption - 이중차분법을 구하는 방법은 아주 간단함 : 실험군의 처치후 변화량에서 대조군의 트렌드 변화량을 빼주면 됨 - 평행 트렌드 가정(parallel trend assumption) 하에, "실험군이 처치를 받지 ..

ANOVA(분산분석) - 3개 이상의 모집단(population)의 평균이 같은지 분석하는 가설검정 방법 - 기존 t-test는 2개의 모집단간 평균이 같은지 분석하는 가설검정이었다면, ANOVA는 3개 이상의 모집단에 대해 평균이 같은지 보는 것으로 one-way, two-way에 따라 다중 종속변수의 관계까지 고려할 수 있음 - F-statistics를 통해 가설검정 --> 정규분포의 제곱의 합은 카이제곱 분포 --> 카이제곱분포는 f통계량으로 분석(F = t-value^2) - 통계량을 구하는 식 자체가 error인데 곧 분산과 같아서, 분산 분석이라는 표현 사용 ANOVA(분산분석) 개념 - 결국, level간 분산이 level내 분산보다 크다면 영가설을 기각시키는 것으로 생각하면 됨 - f-통계..

Chi-Square Distribution (카이제곱분포) - 표준정규분포들의 제곱의 합을 의미 - 카이제곱 분포 : right skewed된 분포 카이제곱 분포는 어디에 사용? - - 자유도 : 샘플수(n) - 1, 1은 평균값으로 자유롭지 않아서, 확인해야하는 자유로운 관측치는 n-1이기 때문에 이것을 자유도라 부름 or permutation 문제에서 마지막은 무조건 한개가 남아 선택권이 없다. 예를 들면 5명이 5개의 물건을 선택하는데, 4명이 선택을 하고 나면, 나머지 한명은 자연스럽게 남은 1개만 가져가기때문에 선택의 여지가 없다. 선택권은 실질적으로 4명에게 있는 것이므로 5-1 = 4 가 자유도가 된다. 참조 고려대 인공지능공학연구소 김성범교수님 유튜브 https://www.youtube.c..

선형회귀 분석을 사용하기 위해서는 4가지 가정을 충족해야 사용이 적절하다고 할 수 있음 선형성/독립성/등분산성/정규성 (1) 선형성 : 독립변수와 종속변수 사이에는 선형적인 관계를 띄어야 한다. (2) 독립성 : 여러 변수들 간의 상관관계가 없이 독립이어야 한다. (다중공선성이 없어야함) (3) 등분산성 : 잔차의 분산은 입력변수와 무관하게 일정해야 한다. (4) 정규성 : 잔차가 평균이 0인 정규분포를 가진다. 1. 선형성(Linearity) 선형성이란, 독립변수와 종속변수 간에 선형적인 관계를 가지는 성질 종속변수(y)와 독립변수(x) 간에 직선의 형태를 띤 관계가 있을 것이라고 가정하고 거기에 선형의 추정 모형을 적합시키는 방법이기 때문에 y와 x간에 선형인 관계가 없다면 아무런 의미 없는 분석 ..