일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- correlation
- subdag
- grad-cam
- GenericGBQException
- 상관관계
- Retry
- integrated gradient
- session 유지
- login crawling
- youtube data
- API Gateway
- spark udf
- Counterfactual Explanations
- top_k
- Airflow
- chatGPT
- airflow subdag
- tensorflow text
- flask
- BigQuery
- hadoop
- 유튜브 API
- 공분산
- requests
- GCP
- gather_nd
- API
- XAI
- TensorFlow
- UDF
- Today
- Total
목록Statistical Learning (58)
데이터과학 삼학년

Needleman-Wunsch 알고리즘 - 생물정보학 에서 단백질 또는 뉴클레오티드 서열 을 정렬 하는 데 사용되는 알고리즘 - 생물학적 시퀀스를 비교하기 위한 동적 프로그래밍 의 첫 번째 응용 프로그램 중 하나 - Needleman-Wunsch 알고리즘은 특히 전역 정렬의 품질이 가장 중요한 경우 최적의 전역 정렬에 여전히 널리 사용 - 알고리즘은 가능한 모든 정렬에 점수를 할당하고 알고리즘의 목적은 가장 높은 점수를 가진 가능한 모든 정렬을 찾는 것 Needleman-Wunsch 알고리즘 방법 match, mis-match, gap에 대해 score를 매김 아래 두가지의 순서를 가진 서열이 있다고 가정하면 - seq1. AGTCG - seq2. ATGG 1. 두 서열을 기준으로 matrix를 만든다...

데이터에 결측치가 많다면 다른 데이터를 이용하여 결측치를 추정할 수 있다. 정확하지 않지만 결측치를 추정하는 방법에는 주어진 데이터 범위 내의 값을 추정하냐, 범위 밖에 값을 추정하냐로, interpolation, extrapolation으로 구분할 수 있다. interpolation(보간법, 내삽) - 범위 안에 있는 값을 예측하는 것 - interpoltaion의 방법에 따라 선형, 스플라인, extrapolation(보외법, 외삽) - 범위 밖에 있는 값을 예측하는 것 interpolation(보간법, 내삽) VS extrapolation(보외법, 외삽) s = pd.Series([0, 1, np.nan, 3]) s 0 0.0 1 1.0 2 NaN 3 3.0 dtype: float64 s.inter..

KS test (Kolmogorov–Smirnov test) - ks test는 non-parametric test 방법 (비모수적) - 1개의 확률 분포를 검정하는 방버법과 두개의 샘플데이터를 검증하는 방법으로 나뉨 - 누적 확률분포(CDF)를 이용하여 표본의 확률 분포가 모집단의 확률 분포와 얼마나 유사한지를 비교하는 방법 or 두 표본의 누적 확률 분포 차이 비교 - ks statistics (ks 통계량)은 실제 데이터의 누적 확률 분포와 모집단의 누적 확률분포간의 차이를 거리로 산정한 통계 Kolmogorov–Smirnov statistic - 기본 가정 : 독립(iid) - ks statistic > F(X) : 모집단의 누적확률 함수 > Fn(X) : 관찰한 샘플들의 누적확률 함수 > ks ..

Kernel Density Estimation (KDE)을 이용한 이상탐지 - 아래 그림과 같이 기존 데이터가 주어지고, 어떠한 한 Point에 대해 이상치를 탐지한다고 가정 - 위 데이터에 대해 이상치를 구한다고 하면, 초록색으로 표시된 point가 이상치인지는 기존의 data들의 분포를 비교하여 탐지할 수 있음 밀도 기반의 이상탐지 방법 두 개의 변수에 대한 분포를 나타냄 각 분포의 밀도를 통해 분포에서 벗어난 정도를 이용해 이상치를 탐지 데이터의 밀도를 추정하는 함수 P(x)를 이용하여 각 point마다 P(x) 를 산정 임계 값인 threshold를 정하고, 해당 point의 함수값이 임계값보다 작은지를 확인하여 이상치 탐지 확률밀도함수를 기반으로 밀도 추정 parametric dataset이 정..
요인 분석 (Factor Analysis) 이란? - 요인분석은 수많은 변수들 중에서 잠재된 몇 개의 변수(요인)을 찾아내는 것 예시) 학생들의 시험 성적 데이터를 예를 들어 생각해보자. 이 데이터가 수학, 과학, 영어, 중국어, 독어, 작곡, 연주 의 점수(0점-100점)으로 구성되어 있다고 하면, 수학, 과학은 상관관계가 있을 것이고 (수리계산능력) 영어, 중국어, 독어 가 상관관계가 있을 것이고 (외국어능력) 작곡, 연주 가 상관관계가 있을 것이다. (음악적능력, 음악적재능) (위의 가정이 좀 이상할 수 있지만, 그냥 그렇다고 받아들이자...) 즉, 원래 7개의 변수(과목)으로 구성되어있지만, (그냥 봐서는 잘 모르지만 상관관계를 따져보면) 내부적으로는 3개의 잠재변수 즉, [수리계산능력], [외국..

샘플링이란, 모집단의 데이터에서 최대한 모집단과 유사한 일부 데이터를 추출하는 과정이다. 데이터 샘플링 방법은 크게 확률적 샘플링, 비확률적 샘플링으로 구분할 수 있다. 확률적 샘플링 : 무작위 샘플링 1. 단순 샘플링 (Simple Random Sampling) - 모집단에서 단순 무작위로 샘플을 추출하는 방법 (각 데이터가 뽑힐 확률이 동일) 2. 층화 샘플링 (Stratified Random Sampling) - 모집단을 몇 개의 그룹으로 나누어 각 그룹에서 무작위로 n개씩 추출하는 방법 ex) 행정구역으로 나눠 각 행정구역에서 표본 추출 3. 계통 샘플링 (Systematic Sampling) - 모집단에 있는 데이터들에게 1~n개의 번호를 임의로 매긴 다음, 일정 간격마다 데이터를 추출하는 방법..

Levenshtein Distance - 두 개의 문자열 A, B가 주어졌을 때 두 문자열이 얼마나 유사한 지를 알아낼 수 있는 알고리즘 - 문자열 A가 문자열 B와 같아지기 위해서는 몇 번의 연산을 진행해야 하는 지 계산할 수 있음 > 연산이란, 삽입(Insertion), 삭제(Deletion), 대체(Replacement)를 말합니다. 예시 1. 문자열 A가 ‘대표자’ 라는 뜻을 가진 ‘delegate’ 라고 가정하고 문자열 B는 ‘삭제’ 라는 뜻을 가진 ‘delete’ 라고 가정합니다. - 문자열 A에서 5번 째 문자 g와 6번 째의 문자 a가 삭제되면 문자열 B가 동일해집니다. 즉, 여기서의 연산 횟수는 2가 되는 것이지요. 2. 문자열 A가 ‘과정’ 을 뜻하는 ‘process’ 라고 가정하고 문..

Mahalanobis Distance - 마할노비스 거리는 다변량 공간에서 2 points 사이의 거리를 의미한다. - 더 정확히 말하자면 두 변수간의 상관관계까지 고려한 distance를 의미함 > 여기서, u는 각 데이터(raw), v는 각 데이터의 평균을 의미한다 > 예를 들어, 다변량 키, 몸무게가 있다면 u = (키1,몸무게1) v = (키 평균, 몸무게 평균) 식에서 알 수 있듯이 공분산 매트릭스를 이용하여 거리를 재는 개념이므로, 다변량 (예, 키,몸무게) 간에 독립이라면 마할노비스 거리는 유클리디안 거리와 동일하다. - MCD 기반 Mahalanobis 거리는 내부 검은 색 점에 훨씬 더 잘 맞는 반면 MLE 기반 거리는 특이 치 빨간색 점의 영향을 더 많이 받는 것을 아래 그림에서 확인할..