250x250
반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- youtube data
- chatGPT
- session 유지
- integrated gradient
- TensorFlow
- API
- hadoop
- Airflow
- airflow subdag
- Retry
- spark udf
- flask
- API Gateway
- 유튜브 API
- subdag
- GCP
- login crawling
- gather_nd
- UDF
- 공분산
- top_k
- 상관관계
- Counterfactual Explanations
- grad-cam
- BigQuery
- GenericGBQException
- tensorflow text
- requests
- correlation
- XAI
Archives
- Today
- Total
데이터과학 삼학년
[Text preprocessing] 한국어 문장 splitter 본문
반응형
한국어 문장 자르는 package가 있어 소개한다.
pip3 install kss 로 간단히 설치 후
적용 코드
import kss
s = "회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습."
for sent in kss.split_sentences(s):
print(sent)
===========================
회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.
만약 문장을 잘라 필터를 통해 특정 keyword가 포함된 텍스트만 모은다면
def preprocessing_paragraph_filter(file_path,pattern):
contents = []
hand = open(file_path)
for line in hand:
line = line.rstrip()
paragraph = kss.split_sentences(line)
for i in paragraph:
if re.search(pattern, i):
contents.append(i)
data = '\n'.join(contents)
return data
위 함수를 적용하면 이렇게 볼 수 있다.
preprocessing_paragraph_filter("sample.txt", '강남|토끼')
=============
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.
출처 : http://docs.likejazz.com/kss/
728x90
반응형
LIST
'Natural Language Processing' 카테고리의 다른 글
BTS 불건전 팬픽 분류 분석 (Naive Bayes, Logistic Regression, RNN) (0) | 2020.06.01 |
---|---|
[Text preprocessing] 텍스트 데이터의 encoding 형식을 알아내기 (0) | 2020.05.28 |
[Text preprocessing] Lemmatization and Stemming (0) | 2020.03.24 |
[Text preprocessing] Cleaning and Normalization, Stopwords (0) | 2020.03.24 |
[Text preprocessing] Tokenization (0) | 2020.03.19 |
Comments