일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- BigQuery
- Counterfactual Explanations
- subdag
- gather_nd
- spark udf
- airflow subdag
- Airflow
- 공분산
- UDF
- youtube data
- tensorflow text
- API
- GenericGBQException
- integrated gradient
- chatGPT
- session 유지
- Retry
- correlation
- flask
- grad-cam
- TensorFlow
- 유튜브 API
- API Gateway
- GCP
- top_k
- XAI
- requests
- login crawling
- 상관관계
- hadoop
- Today
- Total
목록Statistical Learning (55)
데이터과학 삼학년
Kernel Density Estimation (KDE)을 이용한 이상탐지 - 아래 그림과 같이 기존 데이터가 주어지고, 어떠한 한 Point에 대해 이상치를 탐지한다고 가정 - 위 데이터에 대해 이상치를 구한다고 하면, 초록색으로 표시된 point가 이상치인지는 기존의 data들의 분포를 비교하여 탐지할 수 있음 밀도 기반의 이상탐지 방법 두 개의 변수에 대한 분포를 나타냄 각 분포의 밀도를 통해 분포에서 벗어난 정도를 이용해 이상치를 탐지 데이터의 밀도를 추정하는 함수 P(x)를 이용하여 각 point마다 P(x) 를 산정 임계 값인 threshold를 정하고, 해당 point의 함수값이 임계값보다 작은지를 확인하여 이상치 탐지 확률밀도함수를 기반으로 밀도 추정 parametric dataset이 정..
요인 분석 (Factor Analysis) 이란? - 요인분석은 수많은 변수들 중에서 잠재된 몇 개의 변수(요인)을 찾아내는 것 예시) 학생들의 시험 성적 데이터를 예를 들어 생각해보자. 이 데이터가 수학, 과학, 영어, 중국어, 독어, 작곡, 연주 의 점수(0점-100점)으로 구성되어 있다고 하면, 수학, 과학은 상관관계가 있을 것이고 (수리계산능력) 영어, 중국어, 독어 가 상관관계가 있을 것이고 (외국어능력) 작곡, 연주 가 상관관계가 있을 것이다. (음악적능력, 음악적재능) (위의 가정이 좀 이상할 수 있지만, 그냥 그렇다고 받아들이자...) 즉, 원래 7개의 변수(과목)으로 구성되어있지만, (그냥 봐서는 잘 모르지만 상관관계를 따져보면) 내부적으로는 3개의 잠재변수 즉, [수리계산능력], [외국..
샘플링이란, 모집단의 데이터에서 최대한 모집단과 유사한 일부 데이터를 추출하는 과정이다. 데이터 샘플링 방법은 크게 확률적 샘플링, 비확률적 샘플링으로 구분할 수 있다. 확률적 샘플링 : 무작위 샘플링 1. 단순 샘플링 (Simple Random Sampling) - 모집단에서 단순 무작위로 샘플을 추출하는 방법 (각 데이터가 뽑힐 확률이 동일) 2. 층화 샘플링 (Stratified Random Sampling) - 모집단을 몇 개의 그룹으로 나누어 각 그룹에서 무작위로 n개씩 추출하는 방법 ex) 행정구역으로 나눠 각 행정구역에서 표본 추출 3. 계통 샘플링 (Systematic Sampling) - 모집단에 있는 데이터들에게 1~n개의 번호를 임의로 매긴 다음, 일정 간격마다 데이터를 추출하는 방법..
Levenshtein Distance - 두 개의 문자열 A, B가 주어졌을 때 두 문자열이 얼마나 유사한 지를 알아낼 수 있는 알고리즘 - 문자열 A가 문자열 B와 같아지기 위해서는 몇 번의 연산을 진행해야 하는 지 계산할 수 있음 > 연산이란, 삽입(Insertion), 삭제(Deletion), 대체(Replacement)를 말합니다. 예시 1. 문자열 A가 ‘대표자’ 라는 뜻을 가진 ‘delegate’ 라고 가정하고 문자열 B는 ‘삭제’ 라는 뜻을 가진 ‘delete’ 라고 가정합니다. - 문자열 A에서 5번 째 문자 g와 6번 째의 문자 a가 삭제되면 문자열 B가 동일해집니다. 즉, 여기서의 연산 횟수는 2가 되는 것이지요. 2. 문자열 A가 ‘과정’ 을 뜻하는 ‘process’ 라고 가정하고 문..
Mahalanobis Distance - 마할노비스 거리는 다변량 공간에서 2 points 사이의 거리를 의미한다. - 더 정확히 말하자면 두 변수간의 상관관계까지 고려한 distance를 의미함 > 여기서, u는 각 데이터(raw), v는 각 데이터의 평균을 의미한다 > 예를 들어, 다변량 키, 몸무게가 있다면 u = (키1,몸무게1) v = (키 평균, 몸무게 평균) 식에서 알 수 있듯이 공분산 매트릭스를 이용하여 거리를 재는 개념이므로, 다변량 (예, 키,몸무게) 간에 독립이라면 마할노비스 거리는 유클리디안 거리와 동일하다. - MCD 기반 Mahalanobis 거리는 내부 검은 색 점에 훨씬 더 잘 맞는 반면 MLE 기반 거리는 특이 치 빨간색 점의 영향을 더 많이 받는 것을 아래 그림에서 확인할..
생존 분석(Survival Analysis) 이론이란? 생존 분석은 영어로 Survival Analysis 라고 하며, 어떤 사건의 발생 확률을 시간이라는 변수와 함께 생각하는 통계 분석 및 예측 기법이다. 보통 의료계 임상 실험에서 주로 사용되는 이론이며, IT 업계에서도 사용될 수 있는데 대표적으로 서비스 고객의 이탈확률을 구하고자 할 때 사용된다. 생존 분석 이론에는 몇 가지 주요 개념들이 있는데 이는 다음과 같다. 시간 (time) : 생존분석을 시행할 때 주로 시간 경과에 따른 위험도나 생존도를 구하는데 이 때 두는 독립변수로 시간이 있다. 상대적 시간이며, 분석하고자 하는 대상을 관찰하기 시작한 시점부터 0으로 카운트 됨 사건 (event) : 보통 생존의 반대인 이탈, 죽음 등을 가리키며, ..
어떤 이벤트에 대해 일어날 확률을 알고 싶다.예를 들어, 압정의 앞과 뒤가 나올 확률을 계산하고 싶을때,우리는 계속된 Trials의 결과를 이용해 아래와 같은 확률 분포를 구할 수 있다.discreate probability distribution (이산확률분포) 위 자료처럼 앞면이 나올 확률을 θ라고 하면 뒷면이 나올확률은 1-θ로 나타낼 수 있고,앞면3번, 뒷면2번이 나올 확률은 각 확률의 차승을 통해 구할 수 있다. 역으로 확률 쎄타가 주어졌을 때, 우리가 원하는 이벤트인 D가 발생할 확률은P(D|θ) 로 나타낼수 있다.P(D|θ) 를 최대로 하는 θ^ 을 MLE를 통해 구할 수 있다. MLE는 아래와 같이 차승된형태의 확률을 구하기 위해서 ln을 이용해 간단화 할 수 있고결국, θ^ = aH / ..
회귀분석의 가정 (데이터관련) 오차항은 평균이 0이고 분산이 일정한 정규 분포를 갖는다. 독립변수와 종속변수는 선형 관계이다. 오차항은 자기 상관성이 없다. 데이터에 아웃라이어가 없다. 독립변수와 오차항은 서로 독립이다. 독립변수 간에서는 서로 선형적으로 독립이다. 따라서 만약 실제 데이터가 이런 가정을 충족하지 않는다면, 고전적 선형 회귀 모델은 실제 데이터를 정확히 반영하지 못하게 되므로 다른 방법을 사용해야 합니다. 일반적으로 알려진 가이드라인은 다음과 같습니다. 회귀분석 가정의 한계 극복 방법 독립 변수와 종속 변수가 선형 관계가 아닌 경우: Polynomial regression, Generalized Additive Model (GAM) 오차항의 확률분포가 정규분포가 아닌 경우: General..