일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- GenericGBQException
- 공분산
- API
- UDF
- chatGPT
- youtube data
- flask
- integrated gradient
- airflow subdag
- Retry
- BigQuery
- correlation
- requests
- grad-cam
- hadoop
- Counterfactual Explanations
- session 유지
- 상관관계
- tensorflow text
- GCP
- API Gateway
- 유튜브 API
- gather_nd
- spark udf
- subdag
- XAI
- Airflow
- TensorFlow
- top_k
- login crawling
- Today
- Total
목록Feature Engineering (11)
데이터과학 삼학년
Recursive Feature Elimination - Feature Selection의 한 방법으로 전체 feature를 적용하고, 점진적으로 feature를 빼나가면서 최적의 feature수와 feature를 찾는 방법 (backward 방식) - feature를 많이 사용할 수록 overfitting, 차원의 저주 등 실서비스 적용에 옳지 않은 방식이 이루어지기 때문에 적절한 갯수의 핵심적인 feature를 선정하는 것이 중요 RFE 방식 학습하고 싶은 모델선정 모델의 feature importance 도출 feature importance가 낮은 feature부터 하나씩 제거 1~3 방식 반복 코드 # explore the number of selected features for RFE from..
All about Feature Scaling Feature scaling 필요성 - feature scaling은 머신러닝알고리즘에서 데이터간 거리를 계산하는데 필요함 - scaling을 하지 않으면, 더 넓은 범위의 값을 가지는 feature가 거리를 계산하는데 주된 기준이 될 것임 - 머신러닝 모델을 학습시키는데 있어서 빠른 수렴(faster convergence)를 하는데 큰 도움이 되는 것이 scaling임 - feature scaling 이해 Feature scaling이 필수인 알고리즘 - KNN - K-Means - PCA - Gradient Descent Feature scaling이 필수가 아닌 알고리즘 - rule에 의존하는 알고리즘 - CART - Random Forest - Gra..
Snorkel 소개 소개 직면한 문제를 해결하기 위해 ML을 사용하는 것은 일상이 됨 효과적인 ML은 비지도학습보다 지도학습이 보다 용이함 지도학습이 Model 학습뿐 아니라 학습한 Model을 평가하기 용이 지도학습을 위해서는 결국 Labeling 데이터가 필요 snorkel은 data를 labeling을 하는데 도움을 주는 라이브러리 hand-labeling 하는데 수 주,달의 시간이 걸린다면 해당 library를 통해서 수시간, 일이면 큰 규모의 학습 데이터 셋을 구축할 수 있음 핵심 기능 Labeling data 휴리스틱한 규칙 / 원격 지도 기술 Transforming data 반복 혹은 image 변환을 통한 데이터 생성 (data augmentation) Slicing data subset ..
학술 논문 추천 시스템 구축¶ 인용문을 검색하고 싶지만 아직 Google Scholar를 모르는 사람에게 유용함 Microsoft Academic Graph Dataset 사용 Open Academic Graph 논문 개수: 166,192,182개 데이터셋 크기: 104GB 컬럼 수: 18개 항목 기반 협업 필터링¶ Amazon에서 제품 추천을 위한 사용자 기반 알고리즘을 향상시키기 위해 처음 개발됨 항목 간의 유사도를 기반으로 한 추천을 제공함 항목에 대한 정보를 일반화 함 항목 간의 유사도 점수를 계산함 점수 기반의 순위를 통해 상위 $N$개의 유사 항목을 추천함 첫 번째 단계: 데이터 가져오기, 정제하기, 피처 파싱하기¶ 가설: 거의 같은 시기에 비슷한 연구 분야에서 출간된 논문이 사용자에게 가장 ..
CHAPTER 7: Nonlinear Featurization via K-Means Model Stacking¶ Nonlinear dimensionality reduction¶ : is also called nonlinear embedding or manifold learning. Nonlinear embeddings are useful for aggressively compressing high-dimensional data into low-dimensional data. They are often used for visualization in two or three dimensions. Swiss roll: nonlinear manifold¶ In [0]: import numpy as np tt0 =..
PCA (주성분 분석) 데이터의 분산을 최대로 보존하면서 데이터와 직교하는 새 기저(축)을 찾아 이에 투영(Projection)시켜 차원을 줄이는 방법 Feature Extraction 변수추출(Feature Extraction)은 기존 변수를 조합해 새로운 변수를 만드는 기법으로, 단순히 일부 중요 변수만을 빼내는 변수선택(Feature Selection)과는 대비됩니다. 변수추출에는 기존 변수 가운데 일부만 활용하는 방식이 있고, 모두 쓰는 방식이 있는데 PCA는 후자에 해당합니다. 아울러 PCA는 기존 변수를 선형결합(linear combination)해 새로운 변수를 만들어 냅니다. Chapter 6. Dimensionality Reduction: Squashing the Data Pancake ..
범주형 변수 (Categorical Variables) 카테고리나 label을 나타내기 위해 사용되는 변수 Ex. 도시 이름, 성별, 요일 등 Nonordinal 범주형 변수 인코딩(Encoding Categorical Variables) 범주형 변수들의 범주(categories)들은 일반적으로 숫자가 아님 숫자가 아닌 범주들을 숫자로 치환시키는 인코딩 기법이 필요 가장 단순한 아이디어 : 1~k까지의 숫자로 치환 Orderable해져서 안됨 One-Hot Encoding 비트의 그룹을 사용 변수가 동시에 여러 categories에 속할 수 없을 때 사용 e_1+e_2+e_3+...+e_k = 1 Dummy Coding 원 핫 인코딩에서 비트 하나를 골라 제거하여 자유도를 하나 줄인 것 Effect Co..
BoW (Bag-of-Words)의 한계점¶ Emma knowed on the door. No answer. She knoced again and waited. There was a large maple tree next to the house. Emma looked up the tree and saw a giant raven perched at the treetop. Under the afternoon sun, the raven gleamed magnificently. Its beak was hard and pointed, its claws sharp and strong. It looked regal and imposing. It reigned the tree it stood on. The raven ..