일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- correlation
- TensorFlow
- spark udf
- session 유지
- 유튜브 API
- XAI
- 공분산
- UDF
- GenericGBQException
- GCP
- requests
- Counterfactual Explanations
- gather_nd
- Retry
- BigQuery
- 상관관계
- top_k
- subdag
- login crawling
- grad-cam
- Airflow
- flask
- tensorflow text
- youtube data
- hadoop
- integrated gradient
- API Gateway
- airflow subdag
- API
- chatGPT
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년
HBase는 대규모 데이터를 처리하는 NoSQL 데이터베이스하지만 HBase는 SQL을 지원하지 않음아파치 피닉스(Apache Phoenix)는 HBase 위에서 SQL을 사용할 수 있도록 해주는 도구 1. 아파치 피닉스란?- HBase의 SQL 계층을 제공하는 쿼리 엔진- SQL 쿼리로 HBase 데이터를 관리하고 조회할 수 있도록 도와줌- JDBC 연결을 통해 기존 SQL 기반 애플리케이션에서 HBase를 쉽게 활용 가능- HBase의 분산 처리 성능을 그대로 유지하며 SQL로 데이터를 다룰 수 있음 2. 아파치 피닉스의 주요 특징- SQL 지원SQL을 통해 HBase 데이터를 직관적으로 쿼리하고 관리 가능- HBase 통합HBase 위에서 실행되어, 분산 아키텍처를 그대로 활용- JDBC 지원SQL..
1. 큰 수의 법칙(Law of Large Numbers, LLN)큰 수의 법칙은 표본 크기가 커질수록 표본의 평균이 모집단의 평균에 가까워진다는 정리입니다.✔️ 개념• 표본 크기 n 이 커질수록 표본 평균 $ \bar{X} $은 모집단 평균 $ \mu $ 에 수렴• 개별 표본 값이 변동성이 크더라도, 많은 데이터를 모으면 전체적인 경향이 모집단을 반영✔️ 수식표본 평균 $ \bar{X}n $ 은 모집단 평균 $ \mu $ 에 확률적으로 수렴\[\lim_{n \to \infty} \bar{X}_n = \mu\]✔️ 예제예를 들어, 동전을 던질 때 앞면이 나올 확률은 0.5입니다.하지만 동전을 10번 던지면 앞면이 정확히 5번 나올 확률은 낮습니다.그러나 1000번, 10000번 던질수록 앞면이 나오는 ..

1. SMOTE (Synthetic Minority Over-sampling Technique)개념SMOTE는 소수 클래스(minority class)의 데이터를 합성하여 새로운 데이터를 생성하는 방식의 오버샘플링 기법입니다. 단순히 데이터를 복제하는 것이 아니라, K-최근접 이웃(K-NN) 기반으로 새로운 데이터를 생성하여 데이터의 다양성을 증가시킵니다.알고리즘소수 클래스의 데이터 샘플을 선택합니다.선택된 샘플의 K-최근접 이웃을 찾습니다.이웃 중 하나를 랜덤하게 선택하여 기존 데이터와의 차이를 계산합니다.이 차이에 랜덤한 값을 곱하고 기존 데이터에 더하여 새로운 데이터를 생성합니다.장점기존 데이터를 단순 복제하는 것이 아니라, 새로운 데이터를 생성하여 모델의 일반화 성능을 향상시킴.다양한 데이터 분포..
LLM을 활용한 추천 시스템: 넷플릭스 데이터셋 사례추천 시스템은 방대한 콘텐츠 속에서 사용자들이 적합한 항목을 찾을 수 있도록 돕는 중요한 역할을 하고 있습니다. 여러분이 이 글을 발견한 것도 추천 시스템 덕분일 가능성이 높습니다.기존의 추천 시스템은 주로 협업 필터링과 콘텐츠 기반 필터링에 의존해 왔습니다. 하지만 최근 등장한 **대규모 언어 모델(LLMs)**은 이 분야에 새로운 가능성을 열어주고 있습니다. 이번 글에서는 넷플릭스 데이터셋을 활용하여 LLM 기반 추천 시스템을 구축하는 과정을 소개하고, 이 기술이 추천 시스템을 어떻게 혁신하는지 알아보겠습니다. LLM이 추천 시스템에서 게임 체인저가 되는 이유LLM은 기존 추천 시스템과 비교해 여러 가지 독특한 강점을 제공합니다.1. 풍부한 세계 지..

1. MAB란 무엇인가?Multi-Armed Bandit(MAB) 문제는 여러 개의 슬롯 머신(팔을 당기는 밴딧) 중에서 어느 것을 선택해야 가장 높은 보상을 얻을 수 있는지 결정하는 문제입니다. 이 문제는 탐색(Exploration)과 활용(Exploitation) 사이의 균형을 잡는 것이 핵심입니다.주요 구성 요소팔(Arm): 선택 가능한 슬롯 머신 또는 행동.보상(Reward): 선택한 팔에서 얻는 결과(예: 클릭, 구매 등).목표: 보상의 합계를 최대화.MAB 문제는 A/B 테스트, 광고 배치, 콘텐츠 추천 등 다양한 실생활 문제에 응용됩니다.2. 탐색과 활용의 트레이드오프MAB의 가장 큰 도전 과제는 탐색과 활용 사이의 트레이드오프를 해결하는 것입니다.탐색(Exploration): 더 나은 팔을..
스파크 사용 시 흔히 저지르는 실수와 최적화 방법스파크는 빅데이터 처리를 위한 프레임워크로, 빠른 처리 속도로 유명합니다. 이전 글에서는 스파크의 기본 개념과 빠른 이유에 대해 다루었습니다. 이번 글에서는 스파크 애플리케이션의 성능과 메모리 활용을 개선하기 위해 알아야 할 흔한 실수와 최적화 방법에 대해 다루겠습니다. 여기에는 클러스터 최적화, 설정 값 조정, 코드 수준의 최적화 등이 포함됩니다.실수 1: 지연 평가(Lazy Evaluation)를 이해하지 못함스파크는 전통적인 스크립트처럼 코드 라인별로 실행되지 않습니다.data = spark.read.csv("large_file.csv")data.filter(data["age"] > 30)print("Filtering done.")위 코드에서 prin..

1. 네거티브 샘플링의 개념대규모 데이터 학습에서 연산량을 줄이고 효율성을 높이는 기법.모든 데이터를 사용하지 않고 일부만 선택해 학습.주요 활용 분야: 자연어 처리(NLP), 딥러닝.대표 사례: Word2Vec. 2. 네거티브 샘플링의 작동 원리Skip-gram 모델중심 단어(center word)에서 주변 단어(context word)를 예측.예: "고양이가 책상 위에 있다" 문장에서 중심 단어 "고양이"를 기준으로 "책상", "위에" 등을 예측.문제점어휘 크기가 10만 개라면, 중심 단어마다 10만 개의 확률 분포를 계산해야 함.엄청난 연산량을 요구.해결: 네거티브 샘플링 도입긍정 샘플(positive sample): 중심 단어와 실제 관련 있는 단어.네거티브 샘플(negative sample): ..
교차표와 카이제곱 검정: 독립성 테스트1. 교차표란?교차표(Cross Tabulation): 두 변수 간의 관계를 2차원 행렬로 나타내는 방법두 변수의 각 범주에 대한 빈도를 표시Excel의 피벗 테이블과 유사하게 데이터를 시각화주요 장점: 데이터 분포를 쉽게 이해 가능2. 카이제곱 검정이란?카이제곱 검정(χ² Test): 두 변수 간의 관계가 통계적으로 유의미한지 평가하는 방법목적: 관찰된 데이터가 우연인지, 아니면 두 변수 간에 실제로 의미 있는 관계가 있는지를 판단3. 예시질문: "마지막 접촉 채널과 디바이스 유형 간에 관계가 있는가?"방법: 교차표를 통해 두 변수의 분포 확인 후 카이제곱 검정 수행4. 카이제곱 검정 수행 절차관찰 데이터(Observed Data) 준비: 두 변수의 실제 데이터를 ..