데이터과학 삼학년

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (421)

데이터과학 삼학년

LLM을 활용한 추천 시스템

LLM을 활용한 추천 시스템: 넷플릭스 데이터셋 사례추천 시스템은 방대한 콘텐츠 속에서 사용자들이 적합한 항목을 찾을 수 있도록 돕는 중요한 역할을 하고 있습니다. 여러분이 이 글을 발견한 것도 추천 시스템 덕분일 가능성이 높습니다.기존의 추천 시스템은 주로 협업 필터링과 콘텐츠 기반 필터링에 의존해 왔습니다. 하지만 최근 등장한 **대규모 언어 모델(LLMs)**은 이 분야에 새로운 가능성을 열어주고 있습니다. 이번 글에서는 넷플릭스 데이터셋을 활용하여 LLM 기반 추천 시스템을 구축하는 과정을 소개하고, 이 기술이 추천 시스템을 어떻게 혁신하는지 알아보겠습니다. LLM이 추천 시스템에서 게임 체인저가 되는 이유LLM은 기존 추천 시스템과 비교해 여러 가지 독특한 강점을 제공합니다.1. 풍부한 세계 지..

Recommendation System 2025. 1. 27. 10:05

MAB(Multi-Armed Bandit), 톰슨 샘플링

1. MAB란 무엇인가?Multi-Armed Bandit(MAB) 문제는 여러 개의 슬롯 머신(팔을 당기는 밴딧) 중에서 어느 것을 선택해야 가장 높은 보상을 얻을 수 있는지 결정하는 문제입니다. 이 문제는 탐색(Exploration)과 활용(Exploitation) 사이의 균형을 잡는 것이 핵심입니다.주요 구성 요소팔(Arm): 선택 가능한 슬롯 머신 또는 행동.보상(Reward): 선택한 팔에서 얻는 결과(예: 클릭, 구매 등).목표: 보상의 합계를 최대화.MAB 문제는 A/B 테스트, 광고 배치, 콘텐츠 추천 등 다양한 실생활 문제에 응용됩니다.2. 탐색과 활용의 트레이드오프MAB의 가장 큰 도전 과제는 탐색과 활용 사이의 트레이드오프를 해결하는 것입니다.탐색(Exploration): 더 나은 팔을..

Recommendation System 2025. 1. 24. 10:00

[Spark] 스파크 사용 최적화 / 유의사항!!!

스파크 사용 시 흔히 저지르는 실수와 최적화 방법스파크는 빅데이터 처리를 위한 프레임워크로, 빠른 처리 속도로 유명합니다. 이전 글에서는 스파크의 기본 개념과 빠른 이유에 대해 다루었습니다. 이번 글에서는 스파크 애플리케이션의 성능과 메모리 활용을 개선하기 위해 알아야 할 흔한 실수와 최적화 방법에 대해 다루겠습니다. 여기에는 클러스터 최적화, 설정 값 조정, 코드 수준의 최적화 등이 포함됩니다.실수 1: 지연 평가(Lazy Evaluation)를 이해하지 못함스파크는 전통적인 스크립트처럼 코드 라인별로 실행되지 않습니다.data = spark.read.csv("large_file.csv")data.filter(data["age"] > 30)print("Filtering done.")위 코드에서 prin..

Hadoop 2024. 12. 25. 18:26

네거티브 샘플링

1. 네거티브 샘플링의 개념대규모 데이터 학습에서 연산량을 줄이고 효율성을 높이는 기법.모든 데이터를 사용하지 않고 일부만 선택해 학습.주요 활용 분야: 자연어 처리(NLP), 딥러닝.대표 사례: Word2Vec. 2. 네거티브 샘플링의 작동 원리Skip-gram 모델중심 단어(center word)에서 주변 단어(context word)를 예측.예: "고양이가 책상 위에 있다" 문장에서 중심 단어 "고양이"를 기준으로 "책상", "위에" 등을 예측.문제점어휘 크기가 10만 개라면, 중심 단어마다 10만 개의 확률 분포를 계산해야 함.엄청난 연산량을 요구.해결: 네거티브 샘플링 도입긍정 샘플(positive sample): 중심 단어와 실제 관련 있는 단어.네거티브 샘플(negative sample): ..

Statistical Learning 2024. 12. 20. 14:56

범주형 변수 상관관계?! -> cross tab with chi square

교차표와 카이제곱 검정: 독립성 테스트1. 교차표란?교차표(Cross Tabulation): 두 변수 간의 관계를 2차원 행렬로 나타내는 방법두 변수의 각 범주에 대한 빈도를 표시Excel의 피벗 테이블과 유사하게 데이터를 시각화주요 장점: 데이터 분포를 쉽게 이해 가능2. 카이제곱 검정이란?카이제곱 검정(χ² Test): 두 변수 간의 관계가 통계적으로 유의미한지 평가하는 방법목적: 관찰된 데이터가 우연인지, 아니면 두 변수 간에 실제로 의미 있는 관계가 있는지를 판단3. 예시질문: "마지막 접촉 채널과 디바이스 유형 간에 관계가 있는가?"방법: 교차표를 통해 두 변수의 분포 확인 후 카이제곱 검정 수행4. 카이제곱 검정 수행 절차관찰 데이터(Observed Data) 준비: 두 변수의 실제 데이터를 ..

Statistical Learning 2024. 11. 13. 10:40

[SQL : impala] Join 최적화 (Broadcast Vs Partitioned)

1. JOIN 방식의 개요임팔라의 JOIN 방식: 두 가지 방식 제공BROADCAST JOIN: 작은 테이블을 모든 노드에 전송하여 메모리상에서 JOIN 수행PARTITIONED JOIN: 큰 테이블 간 결합 시 파티셔닝을 통한 분산 처리 수행BROADCAST JOIN정의: JOIN 대상 중 작은 테이블을 쿼리 참여 노드에 모두 전송하여 JOIN 연산 수행적합한 사용 시기: 작은 테이블과 큰 테이블의 JOIN 연산 시 유리특징: 작은 테이블이 전체 노드에 복제되므로 빠른 처리 가능. 큰 테이블 broadcast 시 메모리 과부하 발생 가능PARTITIONED JOIN정의: JOIN 연산에 참여하는 두 테이블을 키(key) 기준으로 파티셔닝 후 각 파티션에서 JOIN 수행적합한 사용 시기: 큰 테이블 간 ..

Data Visualization & DataBase 2024. 11. 7. 22:23

[앱개발] React Native

React Native로 모바일 앱 개발하기1. 크로스 플랫폼 개발의 필요성모바일 애플리케이션 시장의 확대로 다양한 플랫폼(iOS, Android)에서 실행 가능한 앱이 요구됨.기존에는 각각의 플랫폼에 맞는 네이티브 코드를 작성해야 했으나, 크로스 플랫폼 개발 프레임워크가 이를 해결.React Native는 Facebook이 개발한 오픈소스 크로스 플랫폼 프레임워크로, 단일 코드베이스로 iOS와 Android 앱을 만들 수 있음.2. React Native란?React Native는 JavaScript와 React를 사용해 모바일 애플리케이션을 개발할 수 있는 프레임워크.네이티브 앱 성능을 제공하면서도, 단일 코드베이스로 여러 플랫폼을 지원.React의 컴포넌트 기반 아키텍처를 적용해 UI와 로직을 재사..

Frontend 2024. 10. 27. 22:59

시계열 데이터 분석 기초

1. 시계열 데이터란?*시계열 데이터(Time Series Data)**는 시간에 따라 연속적으로 수집된 데이터를 말합니다. 주로 금융, 경제, 제조, 기상 예측, 주식 시장, IoT 센서 데이터 등에서 많이 사용됩니다. 시계열 데이터는 시간 축을 가지며, 시간에 따른 데이터의 흐름, 패턴, 변화 등을 분석하는 것이 특징입니다.예시: 주가 데이터(분/시간 단위), 날씨 데이터(일 단위), 매출 기록(월 단위)2. 시계열 데이터 분석의 필요성시계열 데이터 분석은 과거의 데이터를 통해 현재의 패턴을 이해하고, 미래의 값을 예측하거나 비정상적 현상을 탐지하는 데 유용합니다. 이를 통해 의사결정 과정에서 더 나은 판단을 내리고, 자원 배분이나 리스크 관리에 활용할 수 있습니다.시계열 분석의 주요 목적:트렌드 분..

Time Series Analysis 2024. 10. 25. 00:44

Prev 1 2 3 4 ··· 53 Next

목록전체 글 (421)

데이터과학 삼학년

티스토리툴바