일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Retry
- 유튜브 API
- GenericGBQException
- API
- correlation
- UDF
- tensorflow text
- chatGPT
- 상관관계
- grad-cam
- 공분산
- GCP
- session 유지
- Airflow
- TensorFlow
- gather_nd
- BigQuery
- spark udf
- integrated gradient
- requests
- API Gateway
- youtube data
- top_k
- flask
- subdag
- Counterfactual Explanations
- login crawling
- airflow subdag
- XAI
- hadoop
- Today
- Total
목록Statistical Learning (54)
데이터과학 삼학년
요인 분석 (Factor Analysis) 이란? - 요인분석은 수많은 변수들 중에서 잠재된 몇 개의 변수(요인)을 찾아내는 것 예시) 학생들의 시험 성적 데이터를 예를 들어 생각해보자. 이 데이터가 수학, 과학, 영어, 중국어, 독어, 작곡, 연주 의 점수(0점-100점)으로 구성되어 있다고 하면, 수학, 과학은 상관관계가 있을 것이고 (수리계산능력) 영어, 중국어, 독어 가 상관관계가 있을 것이고 (외국어능력) 작곡, 연주 가 상관관계가 있을 것이다. (음악적능력, 음악적재능) (위의 가정이 좀 이상할 수 있지만, 그냥 그렇다고 받아들이자...) 즉, 원래 7개의 변수(과목)으로 구성되어있지만, (그냥 봐서는 잘 모르지만 상관관계를 따져보면) 내부적으로는 3개의 잠재변수 즉, [수리계산능력], [외국..
샘플링이란, 모집단의 데이터에서 최대한 모집단과 유사한 일부 데이터를 추출하는 과정이다. 데이터 샘플링 방법은 크게 확률적 샘플링, 비확률적 샘플링으로 구분할 수 있다. 확률적 샘플링 : 무작위 샘플링 1. 단순 샘플링 (Simple Random Sampling) - 모집단에서 단순 무작위로 샘플을 추출하는 방법 (각 데이터가 뽑힐 확률이 동일) 2. 층화 샘플링 (Stratified Random Sampling) - 모집단을 몇 개의 그룹으로 나누어 각 그룹에서 무작위로 n개씩 추출하는 방법 ex) 행정구역으로 나눠 각 행정구역에서 표본 추출 3. 계통 샘플링 (Systematic Sampling) - 모집단에 있는 데이터들에게 1~n개의 번호를 임의로 매긴 다음, 일정 간격마다 데이터를 추출하는 방법..
Levenshtein Distance - 두 개의 문자열 A, B가 주어졌을 때 두 문자열이 얼마나 유사한 지를 알아낼 수 있는 알고리즘 - 문자열 A가 문자열 B와 같아지기 위해서는 몇 번의 연산을 진행해야 하는 지 계산할 수 있음 > 연산이란, 삽입(Insertion), 삽입(Deletion), 대체(Replacement)를 말합니다. 예시 1. 문자열 A가 ‘대표자’ 라는 뜻을 가진 ‘delegate’ 라고 가정하고 문자열 B는 ‘삭제’ 라는 뜻을 가진 ‘delete’ 라고 가정합니다. - 문자열 A에서 5번 째 문자 g와 6번 째의 문자 a가 삭제되면 문자열 B가 동일해집니다. 즉, 여기서의 연산 횟수는 2가 되는 것이지요. 2. 문자열 A가 ‘과정’ 을 뜻하는 ‘process’ 라고 가정하고 문..
Mahalanobis Distance - 마할노비스 거리는 다변량 공간에서 2 points 사이의 거리를 의미한다. - 더 정확히 말하자면 두 변수간의 상관관계까지 고려한 distance를 의미함 > 여기서, u는 각 데이터(raw), v는 각 데이터의 평균을 의미한다 > 예를 들어, 다변량 키, 몸무게가 있다면 u = (키1,몸무게1) v = (키 평균, 몸무게 평균) 식에서 알 수 있듯이 공분산 매트릭스를 이용하여 거리를 재는 개념이므로, 다변량 (예, 키,몸무게) 간에 독립이라면 마할노비스 거리는 유클리디안 거리와 동일하다. - MCD 기반 Mahalanobis 거리는 내부 검은 색 점에 훨씬 더 잘 맞는 반면 MLE 기반 거리는 특이 치 빨간색 점의 영향을 더 많이 받는 것을 아래 그림에서 확인할..
생존 분석(Survival Analysis) 이론이란? 생존 분석은 영어로 Survival Analysis 라고 하며, 어떤 사건의 발생 확률을 시간이라는 변수와 함께 생각하는 통계 분석 및 예측 기법이다. 보통 의료계 임상 실험에서 주로 사용되는 이론이며, IT 업계에서도 사용될 수 있는데 대표적으로 서비스 고객의 이탈확률을 구하고자 할 때 사용된다. 생존 분석 이론에는 몇 가지 주요 개념들이 있는데 이는 다음과 같다. 시간 (time) : 생존분석을 시행할 때 주로 시간 경과에 따른 위험도나 생존도를 구하는데 이 때 두는 독립변수로 시간이 있다. 상대적 시간이며, 분석하고자 하는 대상을 관찰하기 시작한 시점부터 0으로 카운트 됨 사건 (event) : 보통 생존의 반대인 이탈, 죽음 등을 가리키며, ..
어떤 이벤트에 대해 일어날 확률을 알고 싶다.예를 들어, 압정의 앞과 뒤가 나올 확률을 계산하고 싶을때,우리는 계속된 Trials의 결과를 이용해 아래와 같은 확률 분포를 구할 수 있다.discreate probability distribution (이산확률분포) 위 자료처럼 앞면이 나올 확률을 θ라고 하면 뒷면이 나올확률은 1-θ로 나타낼 수 있고,앞면3번, 뒷면2번이 나올 확률은 각 확률의 차승을 통해 구할 수 있다. 역으로 확률 쎄타가 주어졌을 때, 우리가 원하는 이벤트인 D가 발생할 확률은P(D|θ) 로 나타낼수 있다.P(D|θ) 를 최대로 하는 θ^ 을 MLE를 통해 구할 수 있다. MLE는 아래와 같이 차승된형태의 확률을 구하기 위해서 ln을 이용해 간단화 할 수 있고결국, θ^ = aH / ..
회귀분석의 가정 (데이터관련) 오차항은 평균이 0이고 분산이 일정한 정규 분포를 갖는다. 독립변수와 종속변수는 선형 관계이다. 오차항은 자기 상관성이 없다. 데이터에 아웃라이어가 없다. 독립변수와 오차항은 서로 독립이다. 독립변수 간에서는 서로 선형적으로 독립이다. 따라서 만약 실제 데이터가 이런 가정을 충족하지 않는다면, 고전적 선형 회귀 모델은 실제 데이터를 정확히 반영하지 못하게 되므로 다른 방법을 사용해야 합니다. 일반적으로 알려진 가이드라인은 다음과 같습니다. 회귀분석 가정의 한계 극복 방법 독립 변수와 종속 변수가 선형 관계가 아닌 경우: Polynomial regression, Generalized Additive Model (GAM) 오차항의 확률분포가 정규분포가 아닌 경우: General..
모수 / 비모수 방법 비교 모수적 방법(parametric method) 정규성을 갖는다는 모수적 특성을 이용하는 방법 비모적 방법(nonparametric method) 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나, 군당 30미만의 소규모 실험에서는 정규분포임을 가정할 수 없음 이러한 경우, 자료를 크기순으로 배열하여 순위를 매긴 후 순휘합을 통해 차이를 비교하는 순위합 검정 이용 가능 이러한 것은 비모수적 방법 중 하나임 분석 기법 모수통계 분석방법 빈도분석, T-test ,분산분석(ANOVA), 상관관계분석(correlation), 회귀분석(regression), 판별분석(discriminant analysis), 요인분석(factor analysis), 군집분석(cluster analys..