일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- youtube data
- 상관관계
- gather_nd
- Retry
- API
- chatGPT
- spark udf
- top_k
- 유튜브 API
- grad-cam
- session 유지
- XAI
- Counterfactual Explanations
- GenericGBQException
- BigQuery
- tensorflow text
- requests
- login crawling
- subdag
- GCP
- 공분산
- TensorFlow
- API Gateway
- airflow subdag
- integrated gradient
- UDF
- flask
- hadoop
- Airflow
- correlation
- Today
- Total
목록Machine Learning (95)
데이터과학 삼학년
히스토그램 기반 그래디언트 부스팅 트리(Histogram Gradient Boosting Tree) - 히스토그램 기반 그래디언트 부스팅 트리는 앙상블 학습 방법 중 하나로, 여러 개의 결정 트리를 조합하여 예측 모델을 구축하는 알고리즘 - 트리 기반의 모델인 그래디언트 부스팅 트리(Gradient Boosting Tree)를 기반으로 함 - 특히 데이터를 히스토그램으로 변환하여 학습 및 예측에 활용하는 점이 특징 동작 원리 1. 데이터의 특성을 이해하기 위해 먼저 히스토그램으로 변환 -> 이를 위해 입력 데이터를 여러 개의 구간(bin)으로 나누고, 각 구간에 속하는 데이터 포인트의 개수를 기록 2. 초기에는 단 하나의 트리로 시작하며, 이 트리는 모든 데이터를 하나의 잎(leaf)에 할당 3. 그 다..
LightGBM, CatBoost, XGBoost는 모두 gradient boosting 알고리즘을 기반으로 한 머신러닝 라이브러리 이들의 공통점은 모두 다양한 데이터 타입(범주형, 연속형)의 feature를 다룰 수 있으며, 빠른 속도로 대용량 데이터셋을 처리할 수 있음 LightGBM Leaf-wise tree growth 알고리즘 사용 데이터 셋의 크기가 큰 경우에 유리 예측 성능이 뛰어나며, 빠른 속도로 학습 가능 GPU 가속도 지원 카테고리형 특성 자동 처리 기능 지원 CatBoost Category Boosting 알고리즘 사용 카테고리형 특성 자동 처리 기능 지원 Overfitting 방지를 위한 자체 규제 기능 제공 빠른 속도와 높은 정확도 보장 GPU 가속도 지원 대용량 데이터 학습에도 ..
LGBM이란? LGBM(LightGBM)은 Microsoft에서 개발한 Gradient Boosting 알고리즘을 기반으로 한 머신 러닝 라이브러리 LGBM은 이전의 Gradient Boosting 라이브러리와 달리 효율적인 분할 알고리즘으로 인해 대용량 데이터에 대한 빠른 속도와 높은 정확도를 제공 다양한 하이퍼파라미터 튜닝 기능과 다양한 기능들을 제공하여 사용자들이 모델링에 적합한 파라미터를 쉽게 찾을 수 있음 LGBM의 장점 빠른 속도: LGBM은 효율적인 분할 알고리즘을 사용하여 대용량 데이터에 대해 빠른 속도를 제공 높은 정확도: LGBM은 이전의 Gradient Boosting 라이브러리보다 높은 정확도를 제공 다양한 기능: LGBM은 다양한 하이퍼파라미터 튜닝 기능과 다양한 기능들을 제공하여..
Chat-GPT열풍은 계속된다!!! Pandas의 컨트롤을 드디어...chat-GPT명령으로 실행시킬수 있는 툴이 나왔다!!!! 나의 데이터를 chat-GPT가 인식해 핸들링하게 하는 방법인데...기가 막히다. 1. 데이터 핸들링 -> 특정조건에 맞는 데이터 추출, 조인도 가능할 듯 2. plotting -> 원하는 그림 시각화 이제 쿼리도...날릴 필요가 없어지는 날이 오지 않을까........헛..... 장점 코딩을 못해도 아주 단순하게....쉬운 방법으로 결과물을 출력할 수 있다. 단점 실행된 결과에 대한 신뢰성 검증 필요 사용예시 import pandas as pd from pandasai import PandasAI # Sample DataFrame df = pd.DataFrame({ "coun..
텐서플로우에도 파이토치의 top_k처럼 모델이 output으로 내뱉는 결과중 상위 k개를 뽑아내는 함수가 있다. tf.math.top_k(output, k) 이 것을 통하면 prob과 indices를 한번에 확인 가능하다!!! import tensorflow as tf # 라벨 딕셔너리 정의 label_dict = {0: 'cat', 1: 'dog', 2: 'bird'} # 가장 높은 값과 인덱스 찾기 values, indices = tf.math.top_k(output, k=1) print("Predicted index:", indices.numpy()[0])print("Predicted value:", values.numpy()[0]) @tf.function(input_signature=[tf.Ten..
저장된 TensorFlow 모델을 불러와서 모델 서빙을 하는 코드를 파이썬으로 작성하는 방법은 크게 두 가지가 있습니다. 첫 번째는 TensorFlow Serving을 사용하는 것이고, 두 번째는 직접 Flask나 Django 같은 웹 프레임워크를 사용하여 API를 구현하는 것입니다. 다음은 두 가지 방법 모두에 대한 간단한 예제 코드입니다. TensorFlow Serving을 사용하는 방법 import tensorflow as tf from tensorflow_serving.apis import predict_pb2 from tensorflow_serving.apis import prediction_service_pb2_grpc # 모델을 불러올 서버의 주소와 포트를 지정합니다. server_addre..
pytorch 모델로 저장한 vocab을 load할 때 아래와 같은 오류가 난다면, vocab 생성시의 pytorch 버전과 vocab을 불러오는 pytorch 버전을 확인해보는 것이 좋다. 간혹 상향 버전이지만 이전 버전의 기능을 쓰기 원하면 패키지중 legacy를 지원해주는지 확인하면 된다. torch vocab을 이용할때 pretrained vector를 이용하여 구성하는 방법은 (개인적으로) torchtect 0.10 이전 버전들이 편하게 쓸 수 있었지만, 버전이 상향되면서 해당 기능 구현이 조금 변경되어…난감할때가 있었다. 이때, legacy를 이용하여 아래와 같이 제구성 했다. import torch from torchtext.vocab import Vectors #,Vocab #torchte..
머신러닝을 공부하다 보면 logistic regression이 왜 linear classfier라는 생각이 든다. 왜냐면 logistic regression은 아래 그림과 같이 sigmoid함수의 형태이기 때문이다. 그러나 머신러닝에서 Logistic Regression은 linear classfier로 말한다. 그 이유는 classification 모델에서는 hyperplane(즉, decision boundary를 결정하는 평면)의 formula가 선형형태냐 아니냐에 따라 linear method인지 아닌지로 구분되기 때문이다. logistic regression의 hyperlane fomula 유도식 아래 참고 사이트에서 가져온 식이다. 간단한 개념으로 설명하자면 이진분류 문제에서 분류 결정은 오즈..