AutoML for Text Classification

Machine Learning

Dan-k 2020. 8. 10. 18:55

Regularization criteria(강사피셜)

- dropout : 언제나 사용하면 좋다고 생각함

- L1 : weight가 0이 될수도 있다는 가능성을 의미 → parameter가 많아 조금 없애고 싶다는 생각이 들면 적용(crossed feature를 쓸 때는 L1을 쓰는 것이 낫다)

- L2 : weight가 0에 가깝게 되는 것 의미 → L1과 비슷하지만 그래도 parameter를 다 가지고 가고 싶다면 L2

>> 프로젝트를 시작할때 일단 model이 overfitting이 되게 한다음에 regularization을 해나가는 것이야

AutoML for Text Classification

- 기사제목과 출처를 가지고 분류도 함…→ 성격을 읽는 것 같음

> 기사제목, 뉴욕 타임즈

- Data 만들어서 AutoML에 꽂는 방식 실습 진행

Keras for Text Classification

- 언어는 sequence를 갖기 때문에 sequence 모델을 적용하면 좋음

- tokenizer 를 이용하여 bag of words 생성하고 이에 맞게 벡터를 구성

> 구성된 벡터를 embedding layer를 통해 dense한 데이터로 구성한 후 hidden layer를 통과하도록 구성

- DNN에서의 lambda는 단어의 벡터 값을 하나의 값으로 변경 시키는 역할을 함

728x90

LIST