데이터과학 삼학년

language Model [uncased vs cased] 본문

Natural Language Processing

language Model [uncased vs cased]

Dan-k 2023. 9. 9. 16:42
반응형

자연어 처리 모델로 요즘 허깅페이스에서 pretrained model 많이 쓰는데..

모델중 -uncased, -cased 라는 명이 있다!

이것이 무엇을 의미하는 것일까?!

 

cased

- 텍스트 전처리 과정에서 별도의 처리를 하지 않고 문자 그대로 내놓는것

 

uncased

- 텍스트 전처리 과정에서 소문자 변환, 강조변환을 없애는 등 어느정도 데이터를 정제한 것

# BERT uncased 
OpènGènus -> opengenus 
OpenGenus -> opengenus

# BERT cased 
OpènGènus
OpenGenus

 

참조

 

BERT cased vs BERT uncased

We have explored the difference between BERT cased and BERT uncased. BERT uncased and BERT cased are different in terms of BERT training using case of text in WordPiece tokenization step and presence of accent markers.

iq.opengenus.org

 

728x90
반응형
LIST
Comments