데이터과학 삼학년

Recent Trends in Deep Learning Based Natural Language Processing (2017) (NLP 딥러닝 동향) 본문

Papers

Recent Trends in Deep Learning Based Natural Language Processing (2017) (NLP 딥러닝 동향)

Dan-k 2020. 2. 22. 16:45
반응형

[텍스트관련 딥러닝]

 

CNNRNN 모두 텍스트 딥러닝을 위해 사용되고 있음

RNN은 단어 입력값을 순서대로 처리

CNN은 문장의 지역 정보를 보존함으로써 단어/표현의 등장순서를 학습에 반영하는 아키텍처

 

 

1. 합성곱 신경망(CNN)을 이용한 문장 분류

 

추세 : 이미지 분야에서 주로 사용되었던 CNN방법이 최근 텍스트에도 적용되고 있음

방법 : 단어를 벡터로 임베딩 -> 이미지분류방법과 마찬가지로 방법이지만 텍스트 CNN의 필터는 텍스트의 지역적인 정보, 즉 단어 등장순서/문맥 정보를 보존하며 각 매트릭스의 엘리먼트 와이즈 곱셈을 합산함. 합성곱과 ReLU, ,맥스풀링과정을 반복하여 벡터를 형성하고, 학습된 결과와 비교하여 유사도를 판별

프로젝트 적용 가능성 : A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification 이 논문에서는 이진분류를 가정하여 CNN을 이용하여 문장을 분류함

 

>> 본 프로젝트 역시 이진분류 문제를 가지고 있어 위 논문의 사례와 유사할 것으로 예상

 

재인용 : http://docs.likejazz.com/cnn-text-classification-tf/

https://ratsgo.github.io/natural%20language%20processing/2017/03/19/CNN/

 

 

2. 딥러닝 기반 자연어처리 기법의 최근 연구동향 중 RNN의 사용 필요성

 

RNN은 데이터를 순차적으로 처리하기 때문에, 언어에서 고유한 순차적인 성격을 포착할 수 있는 능력이 있다. 단어는 이전 단어를 바탕으로 의미를 갖게 된다. 이와 관련한 간단한 예시는 ‘dog’‘hot dog’ 간의 의미 차이일 것이다. RNN은 이러한 문맥 의존성을 모델링하기 위해 만들어졌으며 연구자들이 CNN보다 RNN을 사용하는 강한 동기가 되었다.

 

단어 수준 분류

RNN은 단어 수준 분류에서 많이 쓰이고 있다. 이런 인기는 RNNstate-of-the-art 수준의 성능 덕분이다. Lample et al., (2016)은 개체명인식을 위한 bidirectional LSTM 모델을 제안했다. 네트워크는 타겟 단어 주변의 임의의 긴 맥락 정보를 포착해 두 개의 고정된 크기의 벡터를 반환한다. 그 위에 또 하나의 fully-connected 레이어가 있다. 그들은 최종 개체명 태깅에 CRF 레이어를 썼다.

 

RNN은 또한 언어모델링(Language modeling) 면에서 빈도 기반의 기존 방법론보다 상당한 개선을 보여줬다. 이 분야 주목할 만한 연구는 Graves(2013)이다. 그는 긴 범위의 문맥 구조에서 복잡한 시퀀스를 모델링하는 데 RNN이 효율적임을 보여줬다. 그는 또한 은닉층이 여러 개인 deep RNN을 제안했다. 이 연구는 NLP를 넘어선 태스크에도 RNN의 사용을 확립시켰다. 이후 Sundermeyer et al. (2015)은 뒷 단어 예측시 feed-forward neural networkRNN으로 대체함으로써 얻는 이득을 비교했다. 이 연구에서 그들은 기존의 빈도 기반의 언어모델보다 성능이 대폭 향상된 뉴럴 네트워크 아키텍처에서 일반적인 계층구조를 제안했다. 그들이 언급한 중요한 점은 이것이 통계적 기계번역과 같은 다양한 다른 업무에 적용 가능하다는 사실이다(Sundermeyer et al., 2014).

 

Kim et al. (2016)Lample et al. (2016)은 형태적(morphological) 정보를 포함한는 문자 기반의 표현(representation) 사용을 탐색했다. 베이스라인인 단어 기반의 LSTM 모델보다 나은 성능을 나타낸다는 점에서, 문자 기반의 모델이 문자로부터 의미, 철자(orthographic) 정보 모두를 추출할 수 있다는 걸 보여준다. 문자 기반 모델링은 러시아어, 중국어 같이 형태가 복잡한 텍스트에서 강화된 입력값 정보를 제공한다. 아울러 문자들은 방대한 말뭉치를 요구하는 단어와 달리 보통 훨씬 작은 입력공간에 존재한다. 그러나 단어 기반의 처리가 우세한 분야가 많다. 따라서 이 분야에서 확실한 승자는 아직 모른다.

 

 

문장 수준 분류

Wang et al. (2015a)LSTM으로 트위터 문장을 인코딩하는 모델을 제안했다. 이 모델의 히든 스테이트는 감성 극성을 예측하는 데 사용된다. 이러한 간단한 전략은 좀 더 복잡한 DCNN 구조(Kalchbrenner et al., 2014)와 비교해도 좋은 성능을 나타냈다. DCNNCNN 모델이 장기 의존성을 포착할 수 있도록 디자인되었다. 저자들은 또한 LSTM 게이트가 ‘not’이라는 단어가 감성의 극성을 반전시키는 걸 포착할 수 있음을 보였다.

 

 

CNN과 유사하게, RNN의 히든 스테이트는 또한 텍스트 사이의 의미적 일치(semantic matching)에 쓰일 수 있다. 대화시스템에서 Low et al. (2015)Dual-LSTM으로 메세지를 후보 응답과 매칭시키는 모델을 제안했다. Dual-LSTM은 메세지와 응답을 고정된 크기의 벡터로 인코딩하고, 그리고 나서 후보 응답의 순위를 매기기 위해 둘을 내적한다.

 

 

 

참고: Young, T., Hazarika, D., Poria, S., & Cambria, E. (2017). Recent Trends in Deep Learning Based Natural Language Processing. arXiv preprint arXiv:1708.02709.
재인용 :

https://ratsgo.github.io/natural%20language%20processing/2017/08/16/deepNLP/

 

딥러닝 기반 자연어처리 기법의 최근 연구 동향 · ratsgo's blog

딥러닝 기반 자연어처리 기법 연구가 봇물을 이루고 있습니다. 최근 연구트렌드를 정리한 페이퍼가 나와서 눈길을 끄는데요. 바로 아래 논문입니다. 저자의 허락을 받아 한국어로 번역해 전문 게재합니다. 가급적 직역하고 용어는 한국어와 영어를 병기했습니다. 본 블로그에도 관련 내용이 있다면 ‘본 블로그’ 표시를 하고 링크를 걸어두었습니다. 실력이 미천해 오역이 많을 텐데요(ㅠㅠ). 댓글이나 이메일로 의견 주시면 적극 수정 반영하겠습니다. 좀 더 쉬운 표현이나 내

ratsgo.github.io

 

728x90
반응형
LIST
Comments