일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- GCP
- correlation
- hadoop
- tensorflow text
- 상관관계
- airflow subdag
- UDF
- login crawling
- 공분산
- XAI
- youtube data
- API Gateway
- integrated gradient
- subdag
- session 유지
- Counterfactual Explanations
- API
- chatGPT
- spark udf
- flask
- BigQuery
- Airflow
- Retry
- 유튜브 API
- gather_nd
- GenericGBQException
- grad-cam
- top_k
- TensorFlow
- requests
- Today
- Total
목록Statistical Learning (55)
데이터과학 삼학년
통계적 편향 (통계로 거짓말하기) - 통계가 탐정이라면 데이터는 단서에 해당함 - 분석된 결과에 대해서 편향은 없는지 경계하며 확인할 필요가 있음 선택 편향(Selection Bias) - 엉터리 표본으로 인해 모집단에 대해 잘못된 결론에 이르게 되는 현상 - 모집단에 속하는 구성원 모두가 표본으로 추출될 확률이 동일하지 않다면, 그 표본을 사용한 결과로 얻은 결론에도 문제가 있을 것 - 소비자 조사를 실시할 경우, 평균 급여가 높은 지역과 낮은 지역이 있는데 이 둘 한지역만 선택해서 표본을 뽑게 될 경우, 모집단의 결과가 왜곡될 수 있음 - 정치도 마찬가지로 특정 지역마다 선호하는 정치색이 있기때문에 표본 추출 자체에서 왜곡이 일어날 수 있음 - 표본이 좋을때는 표본 크기가 클수록 오차 범위가 줄기 때..
이중차분법 (Difference In Difference) - 원인과 결과간의 효과를 측정하기 위한 인과 추론 방법으로, 시계열적인 변화를 고려하여 효과 측정방법으로 이해됨 - 인과 추론에서는 실험군(Treated Group)과 대조군(Control Group)간의 차이가 있음을 인정하고 비교하는 방법으로, 비실험군이(unTreated Group)이 처치를 받지 않았다면 그 결과는 대조군(Control Group)의 결과(트렌드 변화)와 같다이다. → parallel trend assumption - 이중차분법을 구하는 방법은 아주 간단함 : 실험군의 처치후 변화량에서 대조군의 트렌드 변화량을 빼주면 됨 - 평행 트렌드 가정(parallel trend assumption) 하에, "실험군이 처치를 받지 ..
ANOVA(분산분석) - 3개 이상의 모집단(population)의 평균이 같은지 분석하는 가설검정 방법 - 기존 t-test는 2개의 모집단간 평균이 같은지 분석하는 가설검정이었다면, ANOVA는 3개 이상의 모집단에 대해 평균이 같은지 보는 것으로 one-way, two-way에 따라 다중 종속변수의 관계까지 고려할 수 있음 - F-statistics를 통해 가설검정 --> 정규분포의 제곱의 합은 카이제곱 분포 --> 카이제곱분포는 f통계량으로 분석(F = t-value^2) - 통계량을 구하는 식 자체가 error인데 곧 분산과 같아서, 분산 분석이라는 표현 사용 ANOVA(분산분석) 개념 - 결국, level간 분산이 level내 분산보다 크다면 영가설을 기각시키는 것으로 생각하면 됨 - f-통계..
Chi-Square Distribution (카이제곱분포) - 표준정규분포들의 제곱의 합을 의미 - 카이제곱 분포 : right skewed된 분포 카이제곱 분포는 어디에 사용? - - 자유도 : 샘플수(n) - 1, 1은 평균값으로 자유롭지 않아서, 확인해야하는 자유로운 관측치는 n-1이기 때문에 이것을 자유도라 부름 or permutation 문제에서 마지막은 무조건 한개가 남아 선택권이 없다. 예를 들면 5명이 5개의 물건을 선택하는데, 4명이 선택을 하고 나면, 나머지 한명은 자연스럽게 남은 1개만 가져가기때문에 선택의 여지가 없다. 선택권은 실질적으로 4명에게 있는 것이므로 5-1 = 4 가 자유도가 된다. 참조 고려대 인공지능공학연구소 김성범교수님 유튜브 https://www.youtube.c..
선형회귀 분석을 사용하기 위해서는 4가지 가정을 충족해야 사용이 적절하다고 할 수 있음 선형성/독립성/등분산성/정규성 (1) 선형성 : 독립변수와 종속변수 사이에는 선형적인 관계를 띄어야 한다. (2) 독립성 : 여러 변수들 간의 상관관계가 없이 독립이어야 한다. (다중공선성이 없어야함) (3) 등분산성 : 잔차의 분산은 입력변수와 무관하게 일정해야 한다. (4) 정규성 : 잔차가 평균이 0인 정규분포를 가진다. 1. 선형성(Linearity) 선형성이란, 독립변수와 종속변수 간에 선형적인 관계를 가지는 성질 종속변수(y)와 독립변수(x) 간에 직선의 형태를 띤 관계가 있을 것이라고 가정하고 거기에 선형의 추정 모형을 적합시키는 방법이기 때문에 y와 x간에 선형인 관계가 없다면 아무런 의미 없는 분석 ..
Needleman-Wunsch 알고리즘 - 생물정보학 에서 단백질 또는 뉴클레오티드 서열 을 정렬 하는 데 사용되는 알고리즘 - 생물학적 시퀀스를 비교하기 위한 동적 프로그래밍 의 첫 번째 응용 프로그램 중 하나 - Needleman-Wunsch 알고리즘은 특히 전역 정렬의 품질이 가장 중요한 경우 최적의 전역 정렬에 여전히 널리 사용 - 알고리즘은 가능한 모든 정렬에 점수를 할당하고 알고리즘의 목적은 가장 높은 점수를 가진 가능한 모든 정렬을 찾는 것 Needleman-Wunsch 알고리즘 방법 match, mis-match, gap에 대해 score를 매김 아래 두가지의 순서를 가진 서열이 있다고 가정하면 - seq1. AGTCG - seq2. ATGG 1. 두 서열을 기준으로 matrix를 만든다...
데이터에 결측치가 많다면 다른 데이터를 이용하여 결측치를 추정할 수 있다. 정확하지 않지만 결측치를 추정하는 방법에는 주어진 데이터 범위 내의 값을 추정하냐, 범위 밖에 값을 추정하냐로, interpolation, extrapolation으로 구분할 수 있다. interpolation(보간법, 내삽) - 범위 안에 있는 값을 예측하는 것 - interpoltaion의 방법에 따라 선형, 스플라인, extrapolation(보외법, 외삽) - 범위 밖에 있는 값을 예측하는 것 interpolation(보간법, 내삽) VS extrapolation(보외법, 외삽) s = pd.Series([0, 1, np.nan, 3]) s 0 0.0 1 1.0 2 NaN 3 3.0 dtype: float64 s.inter..
KS test (Kolmogorov–Smirnov test) - ks test는 non-parametric test 방법 (비모수적) - 1개의 확률 분포를 검정하는 방버법과 두개의 샘플데이터를 검증하는 방법으로 나뉨 - 누적 확률분포(CDF)를 이용하여 표본의 확률 분포가 모집단의 확률 분포와 얼마나 유사한지를 비교하는 방법 or 두 표본의 누적 확률 분포 차이 비교 - ks statistics (ks 통계량)은 실제 데이터의 누적 확률 분포와 모집단의 누적 확률분포간의 차이를 거리로 산정한 통계 Kolmogorov–Smirnov statistic - 기본 가정 : 독립(iid) - ks statistic > F(X) : 모집단의 누적확률 함수 > Fn(X) : 관찰한 샘플들의 누적확률 함수 > ks ..