데이터과학 삼학년

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (424)

데이터과학 삼학년

[tensorflow in spark] spark를 이용해 tf model을 분산 처리?!

tensorflow 모델을 spark 분산환경을 위해서 inference하는 방법 - spark udf (pandas udf)를 활용해서 각 worker node에 inference 코드를 전달!! 방안1) driver에서 모델을 로드해서 pandas udf에 모델을 주는 방법 - 이 방법은 pickling error가 나옴 - 이유는 driver에서 worker node에 udf를 이용해 파일/데이터를 전달할때 pickle화 시키는 것으로 보임 -> pickle화 시키는 과정에서 tensorflow model을 pickling하지 못해서 나오는 이슈로 보임 - 아래 코드는 error가 나올 것 : PicklingError: Can't pickle... # 데이터 생성 data = [("row1", 1...

Machine Learning 2024. 3. 8. 14:54

[sklearn in spark] spark분산환경을 이용한 모델 예측

sklearn 모델을 spark 환경에서 분산 인퍼런스하기!!! - pandas udf를 활용 : spark 드라이버가 각 worker에게 모델을 전달하고, 각 worker는 해당 모델을 이용해 pandas udf에서 spark dataframe을 pandas dataframe으로 변환해 예측하고 이를 다시 spark dataframe형태로 리턴 코드예시 from pyspark.sql.functions import col from sklearn.linear_model import LinearRegression # 데이터 생성 data = [("row1", 1.0, 2.0, 3.0), ("row2", 4.0, 5.0, 6.0)] columns = ["id", "feature1", "feature2", "f..

Machine Learning 2024. 3. 7. 12:00

데이터 임베딩 최적의 차원 결정 (How to determine the embedding size?)

데이터 임베딩의 최적 차원 결정 머신러닝에서 범주형 변수를 다룰 때 적절한 임베딩 차원을 선택하는 것은 매우 중요 'min(50, num_categories/2)'이라는 흔한 규칙이 있지만, 100개까지의 범주에 대해서만 적용되며, 100개를 넘어가면 어떻게 해야 할까요? 이제 최적 임베딩 차원을 결정하기 위한 데이터 기반 방식을 살펴보겠다! 1000개 이하의 범주에 대한 제안 1000개 이하의 num_categories에 대해 제안되는 공식은 num_embeddings = min(500, num_categories/2) - 이 제안은 특정 차원에서 무작위 분포된 N 벡터의 직교성을 확인하기 위한 것 - 벡터를 정규화하고 점곱을 계산하여 평균과 표준 편차를 관찰 가능 - 아래 그래프에서 볼 수 있듯이, ..

카테고리 없음 2024. 3. 4. 12:00

[scikit-learn] 카테고리 변수 embedding endcoder 적용

Embedding Encoder는 범주형 변수를 다루는 강력한 라이브러리로, 간단한 사용법과 scikit-learn과의 호환성을 제공 sklearn 자체에는 범주형 변수를 임베딩으로 다룰 수 있는 기능이 아직 없음 해당 라이브러리를 이용하면 sklearn의 사용 방법을 그대로 따르면서 임베딩으로 전처리도 가능하게 구성할 수 있음 Embedding Encoder란? Embedding Encoder는 scikit-learn의 transformer와 유사하게 동작하지만, y를 신경망의 타겟으로 사용한다는 차이. 모든 입력 열이 범주형이라고 가정하고 각 열에 대한 임베딩을 계산 간단한 사용 예제 from embedding_encoder import EmbeddingEncoder # Regression 또는 Cl..

Machine Learning 2024. 2. 29. 01:01

카파 통계량 (Kappa-statistics)

카파 통계량 카파(Kappa) 통계량은 두 명 이상의 평가자(inter-rater) 간의 일치 정도를 측정하는 통계량 주로 분류 작업에서 사용되며, 각 평가자가 관측한 결과에 대한 일치 정도를 평가 특히, 다수의 평가자가 주어진 문제에서 얼마나 일치하는지를 확인하는 데에 유용 >> 모델의 평가에서 불균형이 심한 데이터에 대한 평가에 활용하면 좋다!! - Kappa 통계량은 -1에서 1 사이의 값을 가짐 - 1에 가까울수록 모델의 예측이 완벽에 가깝다고 해석 - 0에 가까울수록 모델의 예측이 무작위 예측과 유사 카파 통계량의 정의 $$ [ \kappa = \frac{P_o - P_e}{1 - P_e} ] $$ 여기서,$ (P_o) $는 실제 관측된 일치도(Observered Agreement)$ (P_e)..

Statistical Learning 2024. 2. 22. 10:00

ROC, Precision-Recall Curve for Multi classification

ROC Curve - multiclassification 문제에서는 각 label별 ROC커브를 그림import numpy as np import tensorflow as tf from sklearn.metrics import precision_recall_curve, auc import matplotlib.pyplot as plt from sklearn.preprocessing import OneHotEncoder # Assuming y_test is a 1D array of class labels y_test = y_test.values.reshape(-1, 1) # Create the one-hot encoder encoder = OneHotEncoder(sparse=False, categories..

Machine Learning 2024. 2. 20. 15:00

deprecated VS obsolete

deprecated - 앞으로 지원되지 않을것이므로 사용을 자제해라 -> 사용을 할 수는 있는 상태 - 중요도가 떨어져 더 이상 사용되지 않고 앞으로는 사라지게 될 (컴퓨터 시스템 기능 등) obsolete - 더이상 쓰지 않는 코드 -> 쓸수가 없는 코드

Computer Science 2024. 2. 19. 22:40

Inductive Learning vs Transductive Learning

인덕티브 학습 (Inductive Learning) 개념 설명 - 인덕티브 학습은 학습된 모델이 이전에 보지 못한 새로운 데이터에 대해 일반화할 수 있도록 학습하는 것을 의미 - supervised learning - 주어진 훈련 데이터에서 일반적인 규칙이나 패턴을 추출하여 새로운 데이터에 대한 예측을 수행하는 것을 목표 예시 - 분류 문제에서 고양이와 개의 이미지를 사용하여 학습한 후 새로운 이미지가 고양이인지 개인지 분류하는 것 트랜스덕티브 학습 (Transductive Learning) 개념 설명 - 트랜스덕티브 학습은 훈련 데이터와 동시에 테스트 데이터를 고려하여 학습하는 방법 - 학습 데이터와 테스트 데이터를 함께 고려하여 모델을 구축하고, 특정 테스트 데이터에 대한 예측을 수행 - semi-s..

Machine Learning 2024. 2. 9. 17:27

Prev 1 2 3 4 5 6 7 ··· 53 Next

목록전체 글 (424)

데이터과학 삼학년

티스토리툴바