일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- chatGPT
- flask
- TensorFlow
- BigQuery
- subdag
- correlation
- Retry
- API Gateway
- hadoop
- top_k
- session 유지
- 공분산
- GCP
- API
- spark udf
- GenericGBQException
- UDF
- XAI
- airflow subdag
- integrated gradient
- Counterfactual Explanations
- youtube data
- requests
- tensorflow text
- 상관관계
- login crawling
- 유튜브 API
- Airflow
- gather_nd
- grad-cam
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년

covid-19 데이터를 시각화로 훑어보자 기간 : 2020.01.22~2020.03.22 data : 공공데이터를 bigquery에 로드하여 분석 시각화 툴 : plotly express 를 주로 사용 import numpy as np import pandas as pd import chart_studio.plotly as py import plotly.express as px import plotly.graph_objects as go import cufflinks as cf cf.go_offline(connected=True) %matplotlib inline %load_ext google.cloud.bigquery %%bigquery df with data as ( SELECT _TABLE_SUF..

음성을 문자로 변환하는 api를 소개한다. 보통 음성은 대표적인 커뮤니케이션 수단이지만, 분석을 할 때는 제약이 있다. 이에 음성을 텍스트로 변환하는 방법에 대해 알아보고자 한다. (Hidden Markov Model (HMM), deep neural network models are used to convert the audio into text.) Hidden Markov Model 을 이용하여 보통 음성을 텍스트로 변환한다. 대표적인 speech to text api로 Speech Recognition api와 pyaudio를 소개하려 한다. Speech Recognition Speech Recognition api 는 여러개의 api가 있는데 konlpy처럼... 여기서는 Google에서 제공해주..

연관분석에서 주요 지표인 Support, Confidence, Lift에 대해 알아보자. 연관규칙은 비지도학습으로서, Y값에 대한 label이 없는 상태에서 데이터에 숨겨진 패턴을 찾는 분석기법 Y값에 대한 label을 가지고 하는 지도학습인 예측이나 분류에서 하는 모델 성과평가와 Y값 label 없이 숨겨진 패턴을 찾는 연관규칙의 흥미척도는 성격이 다름 만약 물건 A, B를 산다고 가정하면. Support (지지도) 전체 상품 구입 수 중 A 라는 상품이 구입된 수 Confidence (신뢰도) A를 구입한 사람 중에 A와 B를 같이 구매한 수 Lift (향상도) 두 상품의 관계를 직접적으로 나타내는 것으로 값이 1보다 크면 A를 샀을때 B를 살 확률이 높은 것을 의미하고, 값이 1미만이면 A를 샀을때..
In [ ]: !pip3 install folium In [1]: import folium In [2]: locat=[37.459411, 126.950642] # 서울대학교 In [3]: m = folium.Map(location=locat,zoom_start=15) In [4]: m Out[4]: Make this Notebook Trusted to load map: File -> Trust Notebook In [5]: m.save('index.html') In [6]: folium.Map( location=locat, tiles='Stamen Toner', zoom_start=13 ) Out[6]: Make this Notebook Trusted to load map: ..

워드투벡터(Word2Vec) 앞서 원-핫 인코딩 챕터에서 원-핫 벡터는 단어 간 유사도를 계산할 수 없다는 단점이 있음을 언급한 적이 있습니다. 그래서 단어 간 유사도를 반영할 수 있도록 단어의 의미를 벡터화 할 수 있는 방법이 필요합니다. 그리고 이를 위해서 사용되는 대표적인 방법이 워드투벡터(Word2Vec)입니다. Word2Vec의 개념을 설명하기에 앞서, Word2Vec가 어떤 일을 할 수 있는지 먼저 확인해보겠습니다. http://w.elnn.kr/search/ 위 사이트는 한국어 단어에 대해서 벡터 연산을 해볼 수 있는 사이트입니다. 위 사이트에서는 단어들(실제로는 Word2Vec 벡터)로 더하기, 빼기 연산을 할 수 있습니다. 예를 들어 아래의 식에서 좌변을 집어 넣으면, 우변의 답들이 나옵..
문법순서 SELECT FROM WHERE GROUP BY HAVING ORDER BY 실행순서 FROM WHERE GROUP BY HAVING SELECT ORDER BY
형태소 분해를 위해 soynlp를 이용하고, 분류문제를 풀기 위해 tf.keras를 이용하여 이진분류를 한다. 모델은 DNN, RNN, CNN을 간단하게 적용한다. import numpy as np import pandas as pd from soynlp.tokenizer import MaxScoreTokenizer from soynlp.word import WordExtractor from soynlp.tokenizer import LTokenizer import os import shutil import tensorflow as tf from tensorflow.keras.callbacks import TensorBoard, EarlyStopping from tensorflow.keras.layers..

soynlp라는 한국어 형태소 분석기에 대해 소개하려 한다. 한국어 형태소 분석기로 가장 잘알려진 것은 koNLPy라이브러리로 이안에 mecab, komoran, kokoma, twitter(okt)등 많은 한국어 형태소 분석기가 있다. 이들의 공통점은 미리 한국어 기반의 사전을 정의하여 그 사전을 가지고 형태소를 분석하는 것이다. 하지만 koNLPy에서 제공하는 형태소분석기는 형태소 기반으로 문서를 토큰화할 수 있는 기능을 제공하지만 새롭게 만들어진 미등록 단어들은 인식이 잘 되지 않는 단점을 가지고 있다. 이를 해결하기 위해서는 사용자 사전에 단어를 등록하는 절치를 거쳐야 하는 번거로움이 있다. soynlp는 이러한 과정을 돕기 위해 사용자 사전과 형태소분석 없이 corpus를 알고리즘(cohesio..