일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Airflow
- 공분산
- requests
- subdag
- API
- GenericGBQException
- chatGPT
- GCP
- integrated gradient
- TensorFlow
- XAI
- gather_nd
- hadoop
- flask
- login crawling
- API Gateway
- airflow subdag
- 유튜브 API
- youtube data
- session 유지
- 상관관계
- Retry
- spark udf
- BigQuery
- grad-cam
- tensorflow text
- top_k
- correlation
- Counterfactual Explanations
- UDF
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년

Probability vs Likelihood Probability (확률) 분포의 범위의 확률 값 예) 몸무게가 60~70kg일 확률 쥐들의 몸무게 분포가 정규분포에 해당한다고 가정하자. 평균 : 32g, 표준편차 : 2.5, 최댓값 : 40g, 최소값: 24g 아래의 면적이 32~34g 일 확률을 의미함 Likelihood (우도, 가능도) 지점에서의 확률 (point) y axis의 값이라고 생각하면 됨 (point 확률값) 요약 확률은 고정 분포 아래영역이며, 우도는 data point의 확률 값을 의미 *** Maximum Likelihood (최대우도추정)는 분포 평균값 데이터가 Likelihood의 최대값이 되도록 만들어 데이터 분포를 가정한 분포에 가깝게 하는 과정을 의미함 출처 : htt..
HTM networks에 대해 논한다. hidden layer 안의 neuron 끼리도 정보를 공유하는 networks.. 일반 nn 보다 더 많은 edge를 갖는 networks로 사람의 복잡한 뇌처럼 구조화하려 한 모델이다. 딥러닝과 큰 차이점은 back propagation 방식을 쓰지 않고 feed foward 방식으로 학습을 한다는 것이다. online learning이 가능하고, sequential 모델로 볼 수 있어 시계열 분석을 이용한 이상탐지 모델에 주로 사용되고 있는 추세이다. 출처 : https://github.com/llSourcell/numenta_explained llSourcell/numenta_explained This is the code for "Numenta Explai..

[DATA] credit card data [Oversampling & algorithm] - SMOTE, SMOTEEN, SMOTETOMEK, pandas upsampling, downsampling, algorithm > 로짓 모형을 통한 각 샘플링 초기 실험결과 method Class precision recall downsampling Class 0 0.99 0.98 Class 1 0.06 0.86 pandas_upsampling Class 0 0.86 0.67 Class 1 0.34 0.61 smote Class 0 0.87 0.50 Class 1 0.29 0.73 smoteenn Class 0 0.87 0.43 Class 1 0.28 0.78 smotetomek Class 0 0.86 0.65..

Regularization criteria(강사피셜) - dropout : 언제나 사용하면 좋다고 생각함 - L1 : weight가 0이 될수도 있다는 가능성을 의미 → parameter가 많아 조금 없애고 싶다는 생각이 들면 적용(crossed feature를 쓸 때는 L1을 쓰는 것이 낫다) - L2 : weight가 0에 가깝게 되는 것 의미 → L1과 비슷하지만 그래도 parameter를 다 가지고 가고 싶다면 L2 >> 프로젝트를 시작할때 일단 model이 overfitting이 되게 한다음에 regularization을 해나가는 것이야 AutoML for Text Classification - 기사제목과 출처를 가지고 분류도 함…→ 성격을 읽는 것 같음 > 기사제목, 뉴욕 타임즈 - Data ..

Recommendation Systems - Content-based filtering : 각 사용자의 선호에 따라 filter가 됨(다른 사람들의 선호는 고려하지 않음) - Knowledge-based recommender : 사용자가 무엇을 선호하는지를 질문을 통해 확인하는 것 - Collaborative filtering : 사용자별 비슷한 성향을 가지는 사람을 embedding한 후 추천해주는 시스템(다른사람의 선호도 고려) - 다양한 추천 기법들이 동시에 적용되고 있음 Content-based filtering - item feature를 이용해서 해당유저가 높은 평점을 매겼던 영화와 비슷한 영화를 추천 - 비슷하다는 기준을 정하는 것이 중요 > 교집합이 클수록 비슷함 > 임베딩을 통해 각 영화..

GANs (Generative Adversarial Networks) - 2014년 이안 굳펠로우가 만듦 - generator 와 discriminator 라는 2개의 모델이 서로 경합하며 학습됨 - discriminative model :판별자, generative model : 생성자 > 일반적인 ml은 discriminative 모델을 의미함(분류 모델-classifier) > generator는 noise에 기반해서 이것이 어떤 패턴을 가지고 있다는 것(만들어내는 방법)을 학습함 - 구성하는 방법 > 첫번째, 이미지를 판별할 수 있는 적합한 classifier model을 구축함(ex.DeepCNN) > 두번째, generator가 이미지를 만들어내도록 data를 계속 생성시킴 : DCGAN은 새..

CNN for sequence models - cnn 공간적인 특징을 잘 잡아냄 - 시간도 공간적인 특성을 가지고 있어서 cnn을 적용함 - convolution 필터를 통해 시계열적인 특성에서 이상한 점들을 발견가능 > 필터사이즈가 3인 1d convolution인 경우 아래와 같은 그림을 얻을 수 있음 > 이 부분은 시계열 이상탐지에 적용할 수 있을 것으로 보임 - reshape를 통해 (?*10*필터수(1)) → 왜 1이냐면 1d convolution이기 때문 > maxpooling 안에 1d convolution을 넣은 것이지! - 1d convolution을 구성하는 단계 - CNN에서 dropout은 사용하지말아라, 할거면 fc layer에서 적용하는 정도? - RNN에서 dropout을 쓰려..

Transfer learning : universal sentence encoder multilingual 적용 환경 TF 2.3 간혹 안되면 TF2.0으로 내리면 됨 Sequential API (keras) 만 사용 가능 model url CNN : "https://tfhub.dev/google/universal-sentence-encoder-multilingual/3" Transformer : "https://tfhub.dev/google/universal-sentence-encoder-multilingual-large/3" 실행 문제 모델 등록 후 Online prediction 불가 이유는….잘 모르겠음 Keyed model을 이용하여 batch prediction 처리 불가 (transfer l..