250x250
반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- session 유지
- chatGPT
- TensorFlow
- Airflow
- spark udf
- GenericGBQException
- UDF
- BigQuery
- flask
- airflow subdag
- Retry
- hadoop
- Counterfactual Explanations
- 유튜브 API
- API
- subdag
- youtube data
- integrated gradient
- 공분산
- tensorflow text
- XAI
- top_k
- login crawling
- API Gateway
- GCP
- correlation
- 상관관계
- grad-cam
- gather_nd
- requests
Archives
- Today
- Total
데이터과학 삼학년
[Text preprocessing] 한국어 문장 splitter 본문
반응형
한국어 문장 자르는 package가 있어 소개한다.
pip3 install kss 로 간단히 설치 후
적용 코드
import kss
s = "회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습."
for sent in kss.split_sentences(s):
print(sent)
===========================
회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.
만약 문장을 잘라 필터를 통해 특정 keyword가 포함된 텍스트만 모은다면
def preprocessing_paragraph_filter(file_path,pattern):
contents = []
hand = open(file_path)
for line in hand:
line = line.rstrip()
paragraph = kss.split_sentences(line)
for i in paragraph:
if re.search(pattern, i):
contents.append(i)
data = '\n'.join(contents)
return data
위 함수를 적용하면 이렇게 볼 수 있다.
preprocessing_paragraph_filter("sample.txt", '강남|토끼')
=============
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.
출처 : http://docs.likejazz.com/kss/
한글 문장 분리기 · The Missing Papers
한글 문장 분리기 18 Aug 2019 NLP에서 문장 분리는 매우 중요한 기능 중 하나다. 특히 딥러닝과 함께 대용량 코퍼스를 잘 분리하는 것은 중요한 역할 중 하나이고, 이 경우 빠른 속도 또한 매우 중요
docs.likejazz.com
728x90
반응형
LIST
'Natural Language Processing' 카테고리의 다른 글
BTS 불건전 팬픽 분류 분석 (Naive Bayes, Logistic Regression, RNN) (0) | 2020.06.01 |
---|---|
[Text preprocessing] 텍스트 데이터의 encoding 형식을 알아내기 (0) | 2020.05.28 |
[Text preprocessing] Lemmatization and Stemming (0) | 2020.03.24 |
[Text preprocessing] Cleaning and Normalization, Stopwords (0) | 2020.03.24 |
[Text preprocessing] Tokenization (0) | 2020.03.19 |
Comments