데이터과학 삼학년

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (424)

데이터과학 삼학년

Plotly 활용한 covid-19 데이터 시각화

covid-19 데이터를 시각화로 훑어보자 기간 : 2020.01.22~2020.03.22 data : 공공데이터를 bigquery에 로드하여 분석 시각화 툴 : plotly express 를 주로 사용 import numpy as np import pandas as pd import chart_studio.plotly as py import plotly.express as px import plotly.graph_objects as go import cufflinks as cf cf.go_offline(connected=True) %matplotlib inline %load_ext google.cloud.bigquery %%bigquery df with data as ( SELECT _TABLE_SUF..

Data Visualization & DataBase 2020. 6. 19. 15:19

Speech to text (Speech Recognition API and PyAudio library)

음성을 문자로 변환하는 api를 소개한다. 보통 음성은 대표적인 커뮤니케이션 수단이지만, 분석을 할 때는 제약이 있다. 이에 음성을 텍스트로 변환하는 방법에 대해 알아보고자 한다. (Hidden Markov Model (HMM), deep neural network models are used to convert the audio into text.) Hidden Markov Model 을 이용하여 보통 음성을 텍스트로 변환한다. 대표적인 speech to text api로 Speech Recognition api와 pyaudio를 소개하려 한다. Speech Recognition Speech Recognition api 는 여러개의 api가 있는데 konlpy처럼... 여기서는 Google에서 제공해주..

Machine Learning 2020. 6. 18. 16:59

[Association rule (연관규칙)] Support, Confidence, Lift, Interest-Support, Cross-Support

연관분석에서 주요 지표인 Support, Confidence, Lift에 대해 알아보자. 연관규칙은 비지도학습으로서, Y값에 대한 label이 없는 상태에서 데이터에 숨겨진 패턴을 찾는 분석기법 Y값에 대한 label을 가지고 하는 지도학습인 예측이나 분류에서 하는 모델 성과평가와 Y값 label 없이 숨겨진 패턴을 찾는 연관규칙의 흥미척도는 성격이 다름 만약 물건 A, B를 산다고 가정하면. Support (지지도) 전체 상품 구입 수 중 A 라는 상품이 구입된 수 Confidence (신뢰도) A를 구입한 사람 중에 A와 B를 같이 구매한 수 Lift (향상도) 두 상품의 관계를 직접적으로 나타내는 것으로 값이 1보다 크면 A를 샀을때 B를 살 확률이 높은 것을 의미하고, 값이 1미만이면 A를 샀을때..

Recommendation System 2020. 6. 18. 16:00

Folium 지리 정보 시각화 tool

In [ ]: !pip3 install folium In [1]: import folium In [2]: locat=[37.459411, 126.950642] # 서울대학교 In [3]: m = folium.Map(location=locat,zoom_start=15) In [4]: m Out[4]: Make this Notebook Trusted to load map: File -> Trust Notebook In [5]: m.save('index.html') In [6]: folium.Map( location=locat, tiles='Stamen Toner', zoom_start=13 ) Out[6]: Make this Notebook Trusted to load map: ..

Data Visualization & DataBase 2020. 6. 17. 16:37

Word Embedding

워드투벡터(Word2Vec) 앞서 원-핫 인코딩 챕터에서 원-핫 벡터는 단어 간 유사도를 계산할 수 없다는 단점이 있음을 언급한 적이 있습니다. 그래서 단어 간 유사도를 반영할 수 있도록 단어의 의미를 벡터화 할 수 있는 방법이 필요합니다. 그리고 이를 위해서 사용되는 대표적인 방법이 워드투벡터(Word2Vec)입니다. Word2Vec의 개념을 설명하기에 앞서, Word2Vec가 어떤 일을 할 수 있는지 먼저 확인해보겠습니다. http://w.elnn.kr/search/ 위 사이트는 한국어 단어에 대해서 벡터 연산을 해볼 수 있는 사이트입니다. 위 사이트에서는 단어들(실제로는 Word2Vec 벡터)로 더하기, 빼기 연산을 할 수 있습니다. 예를 들어 아래의 식에서 좌변을 집어 넣으면, 우변의 답들이 나옵..

Natural Language Processing 2020. 6. 17. 15:07

SQL 문법/실행 순서

문법순서 SELECT FROM WHERE GROUP BY HAVING ORDER BY 실행순서 FROM WHERE GROUP BY HAVING SELECT ORDER BY

Computer Science 2020. 6. 17. 11:55

tf.keras (2.0) & soynlp를 이용한 텍스트 분류 (DNN, RNN, CNN)

형태소 분해를 위해 soynlp를 이용하고, 분류문제를 풀기 위해 tf.keras를 이용하여 이진분류를 한다. 모델은 DNN, RNN, CNN을 간단하게 적용한다. import numpy as np import pandas as pd from soynlp.tokenizer import MaxScoreTokenizer from soynlp.word import WordExtractor from soynlp.tokenizer import LTokenizer import os import shutil import tensorflow as tf from tensorflow.keras.callbacks import TensorBoard, EarlyStopping from tensorflow.keras.layers..

Natural Language Processing 2020. 6. 12. 11:42

soynlp 한국어 형태소 분석기(학습형 형태소 분리기)

soynlp라는 한국어 형태소 분석기에 대해 소개하려 한다. 한국어 형태소 분석기로 가장 잘알려진 것은 koNLPy라이브러리로 이안에 mecab, komoran, kokoma, twitter(okt)등 많은 한국어 형태소 분석기가 있다. 이들의 공통점은 미리 한국어 기반의 사전을 정의하여 그 사전을 가지고 형태소를 분석하는 것이다. 하지만 koNLPy에서 제공하는 형태소분석기는 형태소 기반으로 문서를 토큰화할 수 있는 기능을 제공하지만 새롭게 만들어진 미등록 단어들은 인식이 잘 되지 않는 단점을 가지고 있다. 이를 해결하기 위해서는 사용자 사전에 단어를 등록하는 절치를 거쳐야 하는 번거로움이 있다. soynlp는 이러한 과정을 돕기 위해 사용자 사전과 형태소분석 없이 corpus를 알고리즘(cohesio..

Natural Language Processing 2020. 6. 8. 17:32

Prev 1 ··· 31 32 33 34 35 36 37 ··· 53 Next

목록전체 글 (424)

데이터과학 삼학년

티스토리툴바