일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- GenericGBQException
- airflow subdag
- subdag
- spark udf
- grad-cam
- BigQuery
- GCP
- youtube data
- hadoop
- Counterfactual Explanations
- Airflow
- 상관관계
- tensorflow text
- API Gateway
- flask
- integrated gradient
- chatGPT
- login crawling
- 유튜브 API
- 공분산
- top_k
- XAI
- Retry
- UDF
- requests
- correlation
- TensorFlow
- session 유지
- API
- gather_nd
- Today
- Total
목록Machine Learning (95)
데이터과학 삼학년

스태킹 - 앙상블 모델 중 하나로 stacked generailzation (stacking)을 소개한다. - 앙상블 모델들은 대게 여러개의 모델의 결과를 종합하여 최종 결과를 낸다. - 여기서, 여러개의 모델의 결과를 종합하는 방법은 최빈값, 평균값 등으로 예측결과를 나타내는데. - stacking은 앙상블에서 여러 개의 모델의 결과를 단순히 종합하는 것이 아닌 결과 종합 모델을 두는 것은 어떨까? 라는 아이디어에서 시작됐다. - 즉, 앙상블에서 여러개의 모델의 결과를 종합하는 최종 모델 레이어를 하나 더 추가하는 개념이다. 블렌더(blender or meta learner) - 스태킹에서 각기 다른 모델의 결과값을 이용해 다시 최종 결과를 내놓는 예측기를 블렌더 혹은 메타 학습기라고 함 블렌더를 학습..

centrality centrality란 네트워크 상에서 중요한 노드를 찾기 위한 일종의 metric 으로 확인 밀도의 개념 : node가 n개 주어졌을때 방향을 무시한 총 그을 수 있는 edge수는 n(n-1)/2 이다. 전체 그을수 있는 edge수 중에 해당 node에 들어온 edge수를 기반으로 밀도를 구할 수 있음 degree centrality degree centrality는 각 node별로 직접 연결된 edge 수를 고려함 -> 해당 node를 통해야 연결되게 되는 것. 즉 해당 노드가 가진 영향력을 확인할 수 있음 밀도의 개념이라고 생각하면 됨 weighted degree centrality 노드와 노드를 잇는 edge의 weight는 모두 다르게 설정할 수 있다. 예를 들어 재화의 이동을..

텐서플로1 버전에서는 그래프가 API의 핵심으로 피할 수가 없었고...이때문에 더 복잡했다. 텐서플로2에서도 그래프가 있긴 하지만, 사용하기 매우 쉬워짐 텐서플로 함수 변환 일반 함수를 @tf.function 으로 데커레이터 싸거나, tf.function()함수안에 넣음으로써 그래프를 반영한 함수로 사용할 수 있음 def cube(x): return x ** 3 cube(tf.constant(2.0)) cube라는 함수가 있다면 아래와 같이 텐서플로 함수로 변환이 가능하다. tf_cube = tf.function(cube) tf_cube(2) @tf.function def tf_cube(x): return x ** 3 원본 파이썬 함수가 필요하다면 python_function을 호출하여 확인할 수 있다 ..

DBSCAN 과 HDBSCAN 의 차이점은 무엇일까? HDBSCAN - DBSCAN을 기반으로 실행시키는 클러스터링 방법 - DBSCAN은 하이퍼파라미터로 최소 클러스터 사이즈와 밀도 거리인 threshold epsilon 을 지정해주어야 함 - 그러나, HDBSCAN은 다양한 epsilon값을 기반으로 실행시키기 때문에 최소 클러스터 사이즈만 사용자가 지정해주면 된다는 장점이 있음(즉, 가변의 밀도를 가진 클러스터를 찾는 방법) - 그러나, 최소 epsilon을 사용자가 정하는 것이 여전히 이득이 되는 경우들이 존재한다는 것을 명심 While DBSCAN needs a minimum cluster size and a distance threshold epsilon as user-defined input..

Bagging (Bootsrap Agregating) - 훈련세트에서 중복을 허용(Bootstrap)하여 샘플링하는 방식 Pasting - 훈련세트에서 중복을 허용하지 않고 샘플링하는 방법 배깅과 페이스팅 모두 훈련세트의 서브셋을 무작위로 구성하여 다양한 알고리즘을 학습시키고 각 알고리즘의 결과를 종합하여 최종 결과를 내놓는 방식(앙상블)이다. 앙상블 결과 산정 (일반적) > 분류 : 통계적 최빈값 > 회귀 : 평균값 예시 코드 sklearn 의 BaggingClassifier(BaggingRegressor)로 배깅과 페이스팅을 모두 구성가능하다. from sklearn.ensemble import BaggingClassifier from sklearn.tree import DecisionTreeClas..

다변량 시계열 분석을 위해 LSTM을 활용하고 있다. 다만, LSTM을 여러개의 모델을 구성해야 할때가 있다. 예를 들어 내가 분석하고자하는 서버가 20개 이면 20개 모델을 구해야하는데.. 나는 서버 구분없이 모든 서버를 대표할 수 있는 일명 allround 용 모델 하나를 생성하고 싶다. 이를 위해 여러 방법을 시도해보았고, 그 중 잘 working한 모델을 공유하려 한다. 아래와 같이 서버별 시계열 데이터가 상이한 케이스가 있다. 1번 서버의 경우 2번 서버의 경우 위 그림과 같이 두개의 서버를 시계열 그래프로 나타내면 같은 FEATURE 라도 다른 양상을 보인다... 이럴경우, 각 서버별 모델을 구성해야한다는 것이다. 즉, 100개의 서버가 있으면 100개의 모델을 생성해서 분석해야한다. 이것은 ..

차원축소 고차원의 데이터를 이용해 어떤 문제를 푼다고 할때, 실제로 우리는 모든 feature를 사용할 수 있지만, 굳이 많은 feature를 사용하지 않고, 문제를 풀 수 있는 충분한 양의 feature만을 선택해 풀 수 있다. 즉, 실제 공간(observation space) 보다 관찰대상을 잘 설명할 수 있는 잠재 공간(latent space)를 알아낼 수 있고, 잠재공간을 아는 것을 차원 축소라고 볼 수 도 있다. > 이러한 잠재 공간을 latent representation or coding 이라 부른다 Autoencoder를 이용한 latent representation 찾기 Autoencoder는 데이터를 잠재공간으로 압축하는 encoder (recognition network)와 잠재공간을..

Random PCA - 확률적 알고리즘을 사용해 처음 d개의 주성분에 대한 근삿값을 빠르게 서치 - 완전한 SVD 방식 : O(m * n^2) + O(n^3) - Random PCA : O(m * d^2) + O(d^3) - d가 n 보다 많이 작으면 완전 SVD 보다 훨씬 빠르게 찾음 pca = PCA(n_components=154, svd_solver='randomized') Incremental PCA (IPCA) - PCA 구현의 문제는 SVD를 실행하기위해 전체 훈련세트를 메모리에 올려야하는 문제이다. - 이를 해결하기 위해 미니배치를 이용해 점진적으로 PCA를 구현하는 알고리즘이 출현 transformer = IncrementalPCA(n_components=7, batch_size=200) ..