일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- GCP
- chatGPT
- youtube data
- BigQuery
- GenericGBQException
- gather_nd
- session 유지
- integrated gradient
- Retry
- correlation
- grad-cam
- airflow subdag
- top_k
- Counterfactual Explanations
- UDF
- 유튜브 API
- API
- requests
- 공분산
- TensorFlow
- XAI
- Airflow
- subdag
- API Gateway
- 상관관계
- flask
- tensorflow text
- hadoop
- login crawling
- spark udf
- Today
- Total
목록Statistical Learning (55)
데이터과학 삼학년
교차표와 카이제곱 검정: 독립성 테스트1. 교차표란?교차표(Cross Tabulation): 두 변수 간의 관계를 2차원 행렬로 나타내는 방법두 변수의 각 범주에 대한 빈도를 표시Excel의 피벗 테이블과 유사하게 데이터를 시각화주요 장점: 데이터 분포를 쉽게 이해 가능2. 카이제곱 검정이란?카이제곱 검정(χ² Test): 두 변수 간의 관계가 통계적으로 유의미한지 평가하는 방법목적: 관찰된 데이터가 우연인지, 아니면 두 변수 간에 실제로 의미 있는 관계가 있는지를 판단3. 예시질문: "마지막 접촉 채널과 디바이스 유형 간에 관계가 있는가?"방법: 교차표를 통해 두 변수의 분포 확인 후 카이제곱 검정 수행4. 카이제곱 검정 수행 절차관찰 데이터(Observed Data) 준비: 두 변수의 실제 데이터를 ..
카파 통계량 카파(Kappa) 통계량은 두 명 이상의 평가자(inter-rater) 간의 일치 정도를 측정하는 통계량 주로 분류 작업에서 사용되며, 각 평가자가 관측한 결과에 대한 일치 정도를 평가 특히, 다수의 평가자가 주어진 문제에서 얼마나 일치하는지를 확인하는 데에 유용 >> 모델의 평가에서 불균형이 심한 데이터에 대한 평가에 활용하면 좋다!! - Kappa 통계량은 -1에서 1 사이의 값을 가짐 - 1에 가까울수록 모델의 예측이 완벽에 가깝다고 해석 - 0에 가까울수록 모델의 예측이 무작위 예측과 유사 카파 통계량의 정의 $$ [ \kappa = \frac{P_o - P_e}{1 - P_e} ] $$ 여기서,$ (P_o) $는 실제 관측된 일치도(Observered Agreement)$ (P_e)..
범주형 변수 - 연속형변수 간 상관관계 평균 비교 그래프 (Box Plot 또는 Violin Plot) - 연속형 변수를 범주형 변수의 각 수준에 따라 상자 그림 또는 바이올린 그림으로 그릴 수 있음 - 이러한 그래프는 범주형 변수의 각 수준에서 연속형 변수의 분포와 중앙값을 시각적으로 비교 import seaborn as sns import matplotlib.pyplot as plt # 범주형 변수 category = np.array(['A', 'B', 'A', 'B', 'A']) # 연속형 변수 continuous = np.array([10, 15, 12, 18, 8]) # Box Plot 또는 Violin Plot 그리기 sns.boxplot(x=category, y=continuous) plt...
Data imbalanced 데이터 불균형 문제에서 Oversampling을 많이들 사용한다. 카테고리컬 변수를 ovesampling할 수 있는 방법은 없을까?! 있다...!!!! SMOTENC (numeric and categorical)!!! >> SMOTE-NC for dataset containing numerical and categorical features. 단, categorical feature만 가진 데이터에는 사용할 수 없다 -> 다른 numeric variable의 값을 이용해 categorical variable을 증식시키는 알고리즘이기 때문!!!! SMOTENC - SMOTE"는 Synthetic Minority Over-sampling Technique의 약자이며, - "NC"..
스무딩(smoothing)은 데이터의 노이즈를 완화하거나 데이터의 경향성을 부드럽게 만들기 위해 사용되는 중요한 기법 데이터 과학에서 주로 사용되는 세 가지 스무딩 기법인 이동평균, 커널 밀도 추정, 그리고 로우 통계에 사용 스무딩(smoothing) 기법 이동평균 (Moving Average) 이동평균은 시계열 데이터의 노이즈를 완화하고 데이터의 경향성을 부드럽게 만들기 위해 사용되는 기법입니다. 이동평균은 연속된 일정한 길이의 구간을 선택하고 해당 구간 내 데이터 포인트의 평균값을 계산하는 방식으로 동작합니다. 이를 통해 데이터의 불규칙한 변동을 완화하고 전반적인 추세를 뚜렷하게 보여줄 수 있습니다. 커널 밀도 추정 (Kernel Density Estimation) : 커널 밀도 추정은 데이터의 분..
샘플링을 하다 보면 단순한 랜덤샘플링이 아니라 label별로 일정한 비율로 샘플링하기를 원할때가 있다. 이를 층화샘플링이라고 하는데, pandas dataframe에서 이것을 하는 방법이 있다...(label 컬럼으로 groupby를 하는 것!!!) 랜덤 샘플링 random_sample = df.sample(frac=0.20) ) random_sample.head() 층화 샘플링 - label별 20%로씩 샘플링 stratified_sample = df.groupby('').apply( lambda x: x.sample(frac=0.20) ) stratified_sample.head()
Structural Equation Modeling (SEM) - 통계학에서 사용되는 다중 변수 분석 기법으로, 여러 변수 간의 인과 관계를 모델링하여 분석하는 방법 - SEM은 변수들 간의 복잡한 상호작용과 인과관계를 모델링하고, 모델의 적합성을 평가하고 예측력을 검증할 수 있는 장점이 있음 - SEM은 일반적으로 두 가지 유형의 모델을 포함 첫 번째 유형은 측정 모델 : 다양한 변수들 간의 상호작용을 설명하기 위한 구조적 모델을 구축하기 전에 측정 방법론을 검증하기 위해 사용 두 번째 유형은 구조적 모델 : 변수들 간의 인과 관계를 포함하며, 관심 변수와 비관심 변수 간의 상호작용도 고려할 수 있음 - SEM은 통계적 모델링에 매우 유용하며, 교육 연구, 경영 연구, 사회과학 등에서 사용 SEM P..
심슨의 역설 (Simpson's paradox)은 데이터의 세부 그룹별로 일정한 추세나 경향성이 나타나지만, 전체적으로 보면 그 추세가 사라지거나 반대 방향의 경향성을 나타내는 현상을 의미 이 현상은 사회과학이나 의학 통계 연구에서 종종 발생 예시 치료법결석 크기 치료법 A 치료법 B 효과 비교 치료법결석 크기 치료법A 치료법B 작은 결석 그룹 1 93% (81/87) 그룹 2 87% (234/270) 큰 결석 그룹 3 73% (192/263) 그룹 4 69% (55/80) 모두 78% (273/350) 83% (289/350) 작은 결석과 큰 결석 모두에서 치료법 A의 성공률이 높게 나왔지만, 결석의 크기를 구분하지 않고 합친 경우에는 치료법 B의 성공률이 높은 결과가 나왔다. 이 사례에서는 결석의 크..