[Text preprocessing] 한국어 문장 splitter

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

데이터과학 삼학년

[Text preprocessing] 한국어 문장 splitter 본문

Natural Language Processing

[Text preprocessing] 한국어 문장 splitter

Dan-k 2020. 5. 27. 15:39

한국어 문장 자르는 package가 있어 소개한다.

pip3 install kss 로 간단히 설치 후

적용 코드

import kss

s = "회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습."
for sent in kss.split_sentences(s):
    print(sent)
    
    
===========================
회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.

만약 문장을 잘라 필터를 통해 특정 keyword가 포함된 텍스트만 모은다면

def preprocessing_paragraph_filter(file_path,pattern):
    contents = []
    hand = open(file_path)
    for line in hand:
        line = line.rstrip()
        paragraph = kss.split_sentences(line)
        for i in paragraph:
            if re.search(pattern, i):
                contents.append(i)
    data = '\n'.join(contents)
    return data

위 함수를 적용하면 이렇게 볼 수 있다.

preprocessing_paragraph_filter("sample.txt", '강남|토끼')

=============
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.

출처 : http://docs.likejazz.com/kss/

한글 문장 분리기 · The Missing Papers

한글 문장 분리기 18 Aug 2019 NLP에서 문장 분리는 매우 중요한 기능 중 하나다. 특히 딥러닝과 함께 대용량 코퍼스를 잘 분리하는 것은 중요한 역할 중 하나이고, 이 경우 빠른 속도 또한 매우 중요

docs.likejazz.com

728x90

LIST

'Natural Language Processing' 카테고리의 다른 글

BTS 불건전 팬픽 분류 분석 (Naive Bayes, Logistic Regression, RNN) (0)	2020.06.01
[Text preprocessing] 텍스트 데이터의 encoding 형식을 알아내기 (0)	2020.05.28
[Text preprocessing] Lemmatization and Stemming (0)	2020.03.24
[Text preprocessing] Cleaning and Normalization, Stopwords (0)	2020.03.24
[Text preprocessing] Tokenization (0)	2020.03.19

'Natural Language Processing' Related Articles

Comments

데이터과학 삼학년

[Text preprocessing] 한국어 문장 splitter 본문

[Text preprocessing] 한국어 문장 splitter

'Natural Language Processing' 카테고리의 다른 글

티스토리툴바