일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- API
- GCP
- BigQuery
- tensorflow text
- GenericGBQException
- XAI
- correlation
- API Gateway
- 공분산
- hadoop
- UDF
- TensorFlow
- flask
- airflow subdag
- spark udf
- login crawling
- grad-cam
- session 유지
- chatGPT
- 유튜브 API
- youtube data
- requests
- Airflow
- Counterfactual Explanations
- top_k
- integrated gradient
- subdag
- 상관관계
- gather_nd
- Retry
- Today
- Total
목록분류 전체보기 (422)
데이터과학 삼학년

1. SMOTE (Synthetic Minority Over-sampling Technique)개념SMOTE는 소수 클래스(minority class)의 데이터를 합성하여 새로운 데이터를 생성하는 방식의 오버샘플링 기법입니다. 단순히 데이터를 복제하는 것이 아니라, K-최근접 이웃(K-NN) 기반으로 새로운 데이터를 생성하여 데이터의 다양성을 증가시킵니다.알고리즘소수 클래스의 데이터 샘플을 선택합니다.선택된 샘플의 K-최근접 이웃을 찾습니다.이웃 중 하나를 랜덤하게 선택하여 기존 데이터와의 차이를 계산합니다.이 차이에 랜덤한 값을 곱하고 기존 데이터에 더하여 새로운 데이터를 생성합니다.장점기존 데이터를 단순 복제하는 것이 아니라, 새로운 데이터를 생성하여 모델의 일반화 성능을 향상시킴.다양한 데이터 분포..
LLM을 활용한 추천 시스템: 넷플릭스 데이터셋 사례추천 시스템은 방대한 콘텐츠 속에서 사용자들이 적합한 항목을 찾을 수 있도록 돕는 중요한 역할을 하고 있습니다. 여러분이 이 글을 발견한 것도 추천 시스템 덕분일 가능성이 높습니다.기존의 추천 시스템은 주로 협업 필터링과 콘텐츠 기반 필터링에 의존해 왔습니다. 하지만 최근 등장한 **대규모 언어 모델(LLMs)**은 이 분야에 새로운 가능성을 열어주고 있습니다. 이번 글에서는 넷플릭스 데이터셋을 활용하여 LLM 기반 추천 시스템을 구축하는 과정을 소개하고, 이 기술이 추천 시스템을 어떻게 혁신하는지 알아보겠습니다. LLM이 추천 시스템에서 게임 체인저가 되는 이유LLM은 기존 추천 시스템과 비교해 여러 가지 독특한 강점을 제공합니다.1. 풍부한 세계 지..

1. MAB란 무엇인가?Multi-Armed Bandit(MAB) 문제는 여러 개의 슬롯 머신(팔을 당기는 밴딧) 중에서 어느 것을 선택해야 가장 높은 보상을 얻을 수 있는지 결정하는 문제입니다. 이 문제는 탐색(Exploration)과 활용(Exploitation) 사이의 균형을 잡는 것이 핵심입니다.주요 구성 요소팔(Arm): 선택 가능한 슬롯 머신 또는 행동.보상(Reward): 선택한 팔에서 얻는 결과(예: 클릭, 구매 등).목표: 보상의 합계를 최대화.MAB 문제는 A/B 테스트, 광고 배치, 콘텐츠 추천 등 다양한 실생활 문제에 응용됩니다.2. 탐색과 활용의 트레이드오프MAB의 가장 큰 도전 과제는 탐색과 활용 사이의 트레이드오프를 해결하는 것입니다.탐색(Exploration): 더 나은 팔을..
스파크 사용 시 흔히 저지르는 실수와 최적화 방법스파크는 빅데이터 처리를 위한 프레임워크로, 빠른 처리 속도로 유명합니다. 이전 글에서는 스파크의 기본 개념과 빠른 이유에 대해 다루었습니다. 이번 글에서는 스파크 애플리케이션의 성능과 메모리 활용을 개선하기 위해 알아야 할 흔한 실수와 최적화 방법에 대해 다루겠습니다. 여기에는 클러스터 최적화, 설정 값 조정, 코드 수준의 최적화 등이 포함됩니다.실수 1: 지연 평가(Lazy Evaluation)를 이해하지 못함스파크는 전통적인 스크립트처럼 코드 라인별로 실행되지 않습니다.data = spark.read.csv("large_file.csv")data.filter(data["age"] > 30)print("Filtering done.")위 코드에서 prin..

1. 네거티브 샘플링의 개념대규모 데이터 학습에서 연산량을 줄이고 효율성을 높이는 기법.모든 데이터를 사용하지 않고 일부만 선택해 학습.주요 활용 분야: 자연어 처리(NLP), 딥러닝.대표 사례: Word2Vec. 2. 네거티브 샘플링의 작동 원리Skip-gram 모델중심 단어(center word)에서 주변 단어(context word)를 예측.예: "고양이가 책상 위에 있다" 문장에서 중심 단어 "고양이"를 기준으로 "책상", "위에" 등을 예측.문제점어휘 크기가 10만 개라면, 중심 단어마다 10만 개의 확률 분포를 계산해야 함.엄청난 연산량을 요구.해결: 네거티브 샘플링 도입긍정 샘플(positive sample): 중심 단어와 실제 관련 있는 단어.네거티브 샘플(negative sample): ..
교차표와 카이제곱 검정: 독립성 테스트1. 교차표란?교차표(Cross Tabulation): 두 변수 간의 관계를 2차원 행렬로 나타내는 방법두 변수의 각 범주에 대한 빈도를 표시Excel의 피벗 테이블과 유사하게 데이터를 시각화주요 장점: 데이터 분포를 쉽게 이해 가능2. 카이제곱 검정이란?카이제곱 검정(χ² Test): 두 변수 간의 관계가 통계적으로 유의미한지 평가하는 방법목적: 관찰된 데이터가 우연인지, 아니면 두 변수 간에 실제로 의미 있는 관계가 있는지를 판단3. 예시질문: "마지막 접촉 채널과 디바이스 유형 간에 관계가 있는가?"방법: 교차표를 통해 두 변수의 분포 확인 후 카이제곱 검정 수행4. 카이제곱 검정 수행 절차관찰 데이터(Observed Data) 준비: 두 변수의 실제 데이터를 ..

1. JOIN 방식의 개요임팔라의 JOIN 방식: 두 가지 방식 제공BROADCAST JOIN: 작은 테이블을 모든 노드에 전송하여 메모리상에서 JOIN 수행PARTITIONED JOIN: 큰 테이블 간 결합 시 파티셔닝을 통한 분산 처리 수행BROADCAST JOIN정의: JOIN 대상 중 작은 테이블을 쿼리 참여 노드에 모두 전송하여 JOIN 연산 수행적합한 사용 시기: 작은 테이블과 큰 테이블의 JOIN 연산 시 유리특징: 작은 테이블이 전체 노드에 복제되므로 빠른 처리 가능. 큰 테이블 broadcast 시 메모리 과부하 발생 가능PARTITIONED JOIN정의: JOIN 연산에 참여하는 두 테이블을 키(key) 기준으로 파티셔닝 후 각 파티션에서 JOIN 수행적합한 사용 시기: 큰 테이블 간 ..

React Native로 모바일 앱 개발하기1. 크로스 플랫폼 개발의 필요성모바일 애플리케이션 시장의 확대로 다양한 플랫폼(iOS, Android)에서 실행 가능한 앱이 요구됨.기존에는 각각의 플랫폼에 맞는 네이티브 코드를 작성해야 했으나, 크로스 플랫폼 개발 프레임워크가 이를 해결.React Native는 Facebook이 개발한 오픈소스 크로스 플랫폼 프레임워크로, 단일 코드베이스로 iOS와 Android 앱을 만들 수 있음.2. React Native란?React Native는 JavaScript와 React를 사용해 모바일 애플리케이션을 개발할 수 있는 프레임워크.네이티브 앱 성능을 제공하면서도, 단일 코드베이스로 여러 플랫폼을 지원.React의 컴포넌트 기반 아키텍처를 적용해 UI와 로직을 재사..