일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- UDF
- gather_nd
- 공분산
- subdag
- Retry
- requests
- GenericGBQException
- flask
- GCP
- youtube data
- session 유지
- 상관관계
- spark udf
- XAI
- 유튜브 API
- tensorflow text
- Airflow
- top_k
- login crawling
- hadoop
- grad-cam
- correlation
- Counterfactual Explanations
- API Gateway
- TensorFlow
- BigQuery
- airflow subdag
- chatGPT
- integrated gradient
- API
- Today
- Total
목록Statistical Learning (54)
데이터과학 삼학년
카파 통계량 카파(Kappa) 통계량은 두 명 이상의 평가자(inter-rater) 간의 일치 정도를 측정하는 통계량 주로 분류 작업에서 사용되며, 각 평가자가 관측한 결과에 대한 일치 정도를 평가 특히, 다수의 평가자가 주어진 문제에서 얼마나 일치하는지를 확인하는 데에 유용 >> 모델의 평가에서 불균형이 심한 데이터에 대한 평가에 활용하면 좋다!! - Kappa 통계량은 -1에서 1 사이의 값을 가짐 - 1에 가까울수록 모델의 예측이 완벽에 가깝다고 해석 - 0에 가까울수록 모델의 예측이 무작위 예측과 유사 카파 통계량의 정의 $$ [ \kappa = \frac{P_o - P_e}{1 - P_e} ] $$ 여기서, $ (P_o) $는 실제 관측된 일치도(Observered Agreement) $ (P_..
범주형 변수 - 연속형변수 간 상관관계 평균 비교 그래프 (Box Plot 또는 Violin Plot) - 연속형 변수를 범주형 변수의 각 수준에 따라 상자 그림 또는 바이올린 그림으로 그릴 수 있음 - 이러한 그래프는 범주형 변수의 각 수준에서 연속형 변수의 분포와 중앙값을 시각적으로 비교 import seaborn as sns import matplotlib.pyplot as plt # 범주형 변수 category = np.array(['A', 'B', 'A', 'B', 'A']) # 연속형 변수 continuous = np.array([10, 15, 12, 18, 8]) # Box Plot 또는 Violin Plot 그리기 sns.boxplot(x=category, y=continuous) plt...
Data imbalanced 데이터 불균형 문제에서 Oversampling을 많이들 사용한다. 카테고리컬 변수를 ovesampling할 수 있는 방법은 없을까?! 있다...!!!! SMOTENC (numeric and categorical)!!! >> SMOTE-NC for dataset containing numerical and categorical features. 단, categorical feature만 가진 데이터에는 사용할 수 없다 -> 다른 numeric variable의 값을 이용해 categorical variable을 증식시키는 알고리즘이기 때문!!!! SMOTENC - SMOTE"는 Synthetic Minority Over-sampling Technique의 약자이며, - "NC"..
스무딩(smoothing)은 데이터의 노이즈를 완화하거나 데이터의 경향성을 부드럽게 만들기 위해 사용되는 중요한 기법 데이터 과학에서 주로 사용되는 세 가지 스무딩 기법인 이동평균, 커널 밀도 추정, 그리고 로우 통계에 사용 스무딩(smoothing) 기법 이동평균 (Moving Average) 이동평균은 시계열 데이터의 노이즈를 완화하고 데이터의 경향성을 부드럽게 만들기 위해 사용되는 기법입니다. 이동평균은 연속된 일정한 길이의 구간을 선택하고 해당 구간 내 데이터 포인트의 평균값을 계산하는 방식으로 동작합니다. 이를 통해 데이터의 불규칙한 변동을 완화하고 전반적인 추세를 뚜렷하게 보여줄 수 있습니다. 커널 밀도 추정 (Kernel Density Estimation) : 커널 밀도 추정은 데이터의 분..
샘플링을 하다 보면 단순한 랜덤샘플링이 아니라 label별로 일정한 비율로 샘플링하기를 원할때가 있다. 이를 층화샘플링이라고 하는데, pandas dataframe에서 이것을 하는 방법이 있다...(label 컬럼으로 groupby를 하는 것!!!) 랜덤 샘플링 random_sample = df.sample(frac=0.20) ) random_sample.head() 층화 샘플링 - label별 20%로씩 샘플링 stratified_sample = df.groupby('').apply( lambda x: x.sample(frac=0.20) ) stratified_sample.head()
Structural Equation Modeling (SEM) - 통계학에서 사용되는 다중 변수 분석 기법으로, 여러 변수 간의 인과 관계를 모델링하여 분석하는 방법 - SEM은 변수들 간의 복잡한 상호작용과 인과관계를 모델링하고, 모델의 적합성을 평가하고 예측력을 검증할 수 있는 장점이 있음 - SEM은 일반적으로 두 가지 유형의 모델을 포함 첫 번째 유형은 측정 모델 : 다양한 변수들 간의 상호작용을 설명하기 위한 구조적 모델을 구축하기 전에 측정 방법론을 검증하기 위해 사용 두 번째 유형은 구조적 모델 : 변수들 간의 인과 관계를 포함하며, 관심 변수와 비관심 변수 간의 상호작용도 고려할 수 있음 - SEM은 통계적 모델링에 매우 유용하며, 교육 연구, 경영 연구, 사회과학 등에서 사용 SEM P..
심슨의 역설 (Simpson's paradox)은 데이터의 세부 그룹별로 일정한 추세나 경향성이 나타나지만, 전체적으로 보면 그 추세가 사라지거나 반대 방향의 경향성을 나타내는 현상을 의미 이 현상은 사회과학이나 의학 통계 연구에서 종종 발생 예시 치료법결석 크기 치료법 A 치료법 B 효과 비교 치료법결석 크기 치료법A 치료법B 작은 결석 그룹 1 93% (81/87) 그룹 2 87% (234/270) 큰 결석 그룹 3 73% (192/263) 그룹 4 69% (55/80) 모두 78% (273/350) 83% (289/350) 작은 결석과 큰 결석 모두에서 치료법 A의 성공률이 높게 나왔지만, 결석의 크기를 구분하지 않고 합친 경우에는 치료법 B의 성공률이 높은 결과가 나왔다. 이 사례에서는 결석의 크..
통계적 편향 (통계로 거짓말하기) - 통계가 탐정이라면 데이터는 단서에 해당함 - 분석된 결과에 대해서 편향은 없는지 경계하며 확인할 필요가 있음 선택 편향(Selection Bias) - 엉터리 표본으로 인해 모집단에 대해 잘못된 결론에 이르게 되는 현상 - 모집단에 속하는 구성원 모두가 표본으로 추출될 확률이 동일하지 않다면, 그 표본을 사용한 결과로 얻은 결론에도 문제가 있을 것 - 소비자 조사를 실시할 경우, 평균 급여가 높은 지역과 낮은 지역이 있는데 이 둘 한지역만 선택해서 표본을 뽑게 될 경우, 모집단의 결과가 왜곡될 수 있음 - 정치도 마찬가지로 특정 지역마다 선호하는 정치색이 있기때문에 표본 추출 자체에서 왜곡이 일어날 수 있음 - 표본이 좋을때는 표본 크기가 클수록 오차 범위가 줄기 때..