데이터과학 삼학년

[Text preprocessing] 한국어 문장 splitter 본문

Natural Language Processing

[Text preprocessing] 한국어 문장 splitter

Dan-k 2020. 5. 27. 15:39
반응형

한국어 문장 자르는 package가 있어 소개한다.

 

pip3 install kss 로 간단히 설치 후

 

적용 코드

import kss

s = "회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습."
for sent in kss.split_sentences(s):
    print(sent)
    
    
===========================
회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.

 

 

만약 문장을 잘라 필터를 통해 특정 keyword가 포함된 텍스트만 모은다면

def preprocessing_paragraph_filter(file_path,pattern):
    contents = []
    hand = open(file_path)
    for line in hand:
        line = line.rstrip()
        paragraph = kss.split_sentences(line)
        for i in paragraph:
            if re.search(pattern, i):
                contents.append(i)
    data = '\n'.join(contents)
    return data 

 

위 함수를 적용하면 이렇게 볼 수 있다.

preprocessing_paragraph_filter("sample.txt", '강남|토끼')

=============
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.

 

 

출처 : http://docs.likejazz.com/kss/

 

한글 문장 분리기 · The Missing Papers

한글 문장 분리기 18 Aug 2019 NLP에서 문장 분리는 매우 중요한 기능 중 하나다. 특히 딥러닝과 함께 대용량 코퍼스를 잘 분리하는 것은 중요한 역할 중 하나이고, 이 경우 빠른 속도 또한 매우 중요

docs.likejazz.com

 

728x90
반응형
LIST
Comments