일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- API
- correlation
- GenericGBQException
- Airflow
- 공분산
- 유튜브 API
- subdag
- requests
- API Gateway
- 상관관계
- UDF
- chatGPT
- airflow subdag
- hadoop
- integrated gradient
- flask
- tensorflow text
- login crawling
- spark udf
- top_k
- Counterfactual Explanations
- youtube data
- GCP
- XAI
- session 유지
- BigQuery
- TensorFlow
- grad-cam
- Retry
- gather_nd
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년

생존 분석(Survival Analysis) 이론이란? 생존 분석은 영어로 Survival Analysis 라고 하며, 어떤 사건의 발생 확률을 시간이라는 변수와 함께 생각하는 통계 분석 및 예측 기법이다. 보통 의료계 임상 실험에서 주로 사용되는 이론이며, IT 업계에서도 사용될 수 있는데 대표적으로 서비스 고객의 이탈확률을 구하고자 할 때 사용된다. 생존 분석 이론에는 몇 가지 주요 개념들이 있는데 이는 다음과 같다. 시간 (time) : 생존분석을 시행할 때 주로 시간 경과에 따른 위험도나 생존도를 구하는데 이 때 두는 독립변수로 시간이 있다. 상대적 시간이며, 분석하고자 하는 대상을 관찰하기 시작한 시점부터 0으로 카운트 됨 사건 (event) : 보통 생존의 반대인 이탈, 죽음 등을 가리키며, ..
정규 표현식의 기초, 메타 문자 정규 표현식에서 사용하는 메타 문자(meta characters)에는 다음과 같은 것이 있다. ※ 메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말한다. . ^ $ * + ? { } [ ] \ | ( ) 정규 표현식에 위 메타 문자를 사용하면 특별한 의미를 갖게 된다. 자, 그러면 가장 간단한 정규 표현식부터 시작해 각 메타 문자의 의미와 사용법을 알아보자. 문자 클래스 [ ] 우리가 가장 먼저 살펴볼 메타 문자는 바로 문자 클래스(character class)인 [ ]이다. 문자 클래스로 만들어진 정규식은"[ ] 사이의 문자들과 매치"라는 의미를 갖는다. ※ 문자 클래스를 만드는 메타 문자인 [ ] 사이에는 어떤 문자도 들어갈 수 있다. 즉 ..

어떤 이벤트에 대해 일어날 확률을 알고 싶다.예를 들어, 압정의 앞과 뒤가 나올 확률을 계산하고 싶을때,우리는 계속된 Trials의 결과를 이용해 아래와 같은 확률 분포를 구할 수 있다.discreate probability distribution (이산확률분포) 위 자료처럼 앞면이 나올 확률을 θ라고 하면 뒷면이 나올확률은 1-θ로 나타낼 수 있고,앞면3번, 뒷면2번이 나올 확률은 각 확률의 차승을 통해 구할 수 있다. 역으로 확률 쎄타가 주어졌을 때, 우리가 원하는 이벤트인 D가 발생할 확률은P(D|θ) 로 나타낼수 있다.P(D|θ) 를 최대로 하는 θ^ 을 MLE를 통해 구할 수 있다. MLE는 아래와 같이 차승된형태의 확률을 구하기 위해서 ln을 이용해 간단화 할 수 있고결국, θ^ = aH / ..

젠킨스 타임존 설정 방법은 크게 2가지가 있다. 유저별로 각각 설정하는 방법과 시스템 전체에서 타임존을 변경하는 방법이다. 유저별 설정 > 유저별로 timezone을 각각 설정 1. 유저 정보에 들어간다. 2. 설정을 누르고, 맨 아래 User Defined Time Zone에서 timezone 선택 시스템 설정 > 젠킨스 시스템 자체 timezone 설정 (전체 변경) 1. Jenkins Script Console 에 들어간다. 2. 아래 커맨드를 적용하여 timezone 변경 System.setProperty('org.apache.commons.jelly.tags.fmt.timeZone', 'Asia/Seoul') System.setProperty('org.apache.commons.jelly.tag..

회귀분석의 가정 (데이터관련) 오차항은 평균이 0이고 분산이 일정한 정규 분포를 갖는다. 독립변수와 종속변수는 선형 관계이다. 오차항은 자기 상관성이 없다. 데이터에 아웃라이어가 없다. 독립변수와 오차항은 서로 독립이다. 독립변수 간에서는 서로 선형적으로 독립이다. 따라서 만약 실제 데이터가 이런 가정을 충족하지 않는다면, 고전적 선형 회귀 모델은 실제 데이터를 정확히 반영하지 못하게 되므로 다른 방법을 사용해야 합니다. 일반적으로 알려진 가이드라인은 다음과 같습니다. 회귀분석 가정의 한계 극복 방법 독립 변수와 종속 변수가 선형 관계가 아닌 경우: Polynomial regression, Generalized Additive Model (GAM) 오차항의 확률분포가 정규분포가 아닌 경우: General..

다변량 시계열 분석을 위해 LSTM을 활용하고 있다. 다만, LSTM을 여러개의 모델을 구성해야 할때가 있다. 예를 들어 내가 분석하고자하는 서버가 20개 이면 20개 모델을 구해야하는데.. 나는 서버 구분없이 모든 서버를 대표할 수 있는 일명 allround 용 모델 하나를 생성하고 싶다. 이를 위해 여러 방법을 시도해보았고, 그 중 잘 working한 모델을 공유하려 한다. 아래와 같이 서버별 시계열 데이터가 상이한 케이스가 있다. 1번 서버의 경우 2번 서버의 경우 위 그림과 같이 두개의 서버를 시계열 그래프로 나타내면 같은 FEATURE 라도 다른 양상을 보인다... 이럴경우, 각 서버별 모델을 구성해야한다는 것이다. 즉, 100개의 서버가 있으면 100개의 모델을 생성해서 분석해야한다. 이것은 ..

차원축소 고차원의 데이터를 이용해 어떤 문제를 푼다고 할때, 실제로 우리는 모든 feature를 사용할 수 있지만, 굳이 많은 feature를 사용하지 않고, 문제를 풀 수 있는 충분한 양의 feature만을 선택해 풀 수 있다. 즉, 실제 공간(observation space) 보다 관찰대상을 잘 설명할 수 있는 잠재 공간(latent space)를 알아낼 수 있고, 잠재공간을 아는 것을 차원 축소라고 볼 수 도 있다. > 이러한 잠재 공간을 latent representation or coding 이라 부른다 Autoencoder를 이용한 latent representation 찾기 Autoencoder는 데이터를 잠재공간으로 압축하는 encoder (recognition network)와 잠재공간을..

Random PCA - 확률적 알고리즘을 사용해 처음 d개의 주성분에 대한 근삿값을 빠르게 서치 - 완전한 SVD 방식 : O(m * n^2) + O(n^3) - Random PCA : O(m * d^2) + O(d^3) - d가 n 보다 많이 작으면 완전 SVD 보다 훨씬 빠르게 찾음 pca = PCA(n_components=154, svd_solver='randomized') Incremental PCA (IPCA) - PCA 구현의 문제는 SVD를 실행하기위해 전체 훈련세트를 메모리에 올려야하는 문제이다. - 이를 해결하기 위해 미니배치를 이용해 점진적으로 PCA를 구현하는 알고리즘이 출현 transformer = IncrementalPCA(n_components=7, batch_size=200) ..