Natural Language Processing
[Text preprocessing] 한국어 문장 splitter
Dan-k
2020. 5. 27. 15:39
반응형
한국어 문장 자르는 package가 있어 소개한다.
pip3 install kss 로 간단히 설치 후
적용 코드
import kss
s = "회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습."
for sent in kss.split_sentences(s):
print(sent)
===========================
회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.
만약 문장을 잘라 필터를 통해 특정 keyword가 포함된 텍스트만 모은다면
def preprocessing_paragraph_filter(file_path,pattern):
contents = []
hand = open(file_path)
for line in hand:
line = line.rstrip()
paragraph = kss.split_sentences(line)
for i in paragraph:
if re.search(pattern, i):
contents.append(i)
data = '\n'.join(contents)
return data
위 함수를 적용하면 이렇게 볼 수 있다.
preprocessing_paragraph_filter("sample.txt", '강남|토끼')
=============
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.
출처 : http://docs.likejazz.com/kss/
한글 문장 분리기 · The Missing Papers
한글 문장 분리기 18 Aug 2019 NLP에서 문장 분리는 매우 중요한 기능 중 하나다. 특히 딥러닝과 함께 대용량 코퍼스를 잘 분리하는 것은 중요한 역할 중 하나이고, 이 경우 빠른 속도 또한 매우 중요
docs.likejazz.com
728x90
반응형
LIST