일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- GCP
- subdag
- GenericGBQException
- integrated gradient
- session 유지
- airflow subdag
- spark udf
- XAI
- BigQuery
- UDF
- gather_nd
- requests
- youtube data
- tensorflow text
- top_k
- Counterfactual Explanations
- 유튜브 API
- correlation
- Airflow
- API
- login crawling
- chatGPT
- Retry
- flask
- TensorFlow
- API Gateway
- 공분산
- 상관관계
- grad-cam
- hadoop
- Today
- Total
목록Feature Engineering (11)
데이터과학 삼학년
텍스트 데이터를 벡터로 변환하여 분석!¶ Word -> vectorize Bag of Words -> CountVectorizer tf-idf : Term Frequency / document Frequeny -> TfidfVectorizer Wordembedding, SequenceVec Doc2Vec 무엇이든 가장 단순하고 해석 가능한 것이 좋다!¶ BoW : 가장 단순 -> count를 가진 벡터 변환(word dictionary_vocab형성) ¶ 오늘의 실습은 비교적 쉬운 영어로 된 예제만 진행¶ **[참고]** 한글 형태소 분석기¶ Konlpy : kkoma, mecab, twitter, konoran, hannanum Kakao : khaiii -> 딥러닝 기반 형태소 분석기 성능비교 참고 ..
숫자를 위한 멋진 트릭¶ 숫자 데이터는 이미 수학적 모델로 처리하기 쉬운 형식으로 되어있음 좋은 피처를 만들기 위해 변환과정이 필요함 데이터의 가장 두드러진 특징을 표현함 모델의 가정에 맞춰야함 숫자 데이터에 대한 고려사항 값의 크기 문제 양수 or 음수만 확인하면 되는가? 구간을 나누어서 봐야 하는가? 피처의 스케일 최소, 최대 확인(차이) 입력 스케일에 직접적인 영향을 받는 기법 => 정규화 필요 K-means clustering Nearest-neighbor RBF(Radial Basis Function) kernel Euclidean distance 논리 함수는 입력 스케일에 크게 영향받지 않음 Step function (x > 5?)으로 구성되는 Decision Tree Gradient boos..
머신러닝을 이용한 분석방법의 파이프라인에 대해 간략하게 알아보자. Data 실제 세계를 반영할 수 있는 데이터를 가지고 있다. 데이터를 통해 우리는 전체적인 그림을 그릴수 있다. 그러나 수집된 데이터는 종류가 매우 다양하고 noise와 잘못 수집된 데이터들이 복잡적으로 존재하고 있어, 데이터를 통해 현 세계를 제대로 이해하기 위해서는 처리가 필수적이다. Tasks Task는 우리가 데이터를 모으고, 분석하는 이유를 말한다. 예를 들어 어떻게 더 나은 삶을 즐길수 있는지, 고객의 구매패턴변화를 어떻게 찾을 지, 또 그원인은 무엇인지 찾는 일련의 목적을 말한다. 우리는 Data를 통해서 질문에 대한 Answers을 얻을 수 있다. Models 데이터를 통해 실세곌르 이해하는다는 것이니 복잡한 퍼즐같은 데이터..