일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- login crawling
- GenericGBQException
- tensorflow text
- 공분산
- subdag
- 유튜브 API
- hadoop
- youtube data
- UDF
- requests
- grad-cam
- integrated gradient
- airflow subdag
- 상관관계
- correlation
- gather_nd
- session 유지
- Retry
- Airflow
- BigQuery
- API
- TensorFlow
- GCP
- flask
- chatGPT
- Counterfactual Explanations
- top_k
- XAI
- API Gateway
- spark udf
- Today
- Total
목록Natural Language Processing (31)
데이터과학 삼학년
텔레그램봇을 이용한 텔레그램 챗 수집은 두가지 조건이 있다. 1. 해당 챗방에 봇 초대 2. 봇이 관리자 권한 획득 하지만 위와 같은 상황으로 텔레그램봇을 이용해 데이터를 수집하지 못한다면... 직접 챗방에 들어가 chat data를 export할 수 있다. [텔레그램챗 수집] 1. 먼저 telegram desktop을 다운받고 설치한다. 2. 원하는 챗방에 들어가서 오른쪽 상단의 설정을 누르면 대화 내보내기(export)가 있다. 해당 버튼을 클릭하면, 3. 내보내기를 원하는 파일형태와 기간을 설정할 수 있다. 4. 내보내고 나면 챗의 경우는 .html 파일로 받아볼수 있고, html 파서를 이용하여 데이터를 수집하면 된다. 5. html 파일을 파서하여 원하는 데이터를 수집한다. [html 파일] [..
텔레그램봇을 활용한 유저데이터 수집 및 활용 메시지 서비스인 텔레그램을 이용해서 다양한 유저 데이터 수집과 유저 반응에 따른 자동 서비스를 구현할 수 있다. [목차] 1. 텔레그램 봇 만들기 2. 텔레그램 봇 설정 - 그룹 메시지 보기(disabled 설정) - 관리자 권한 획득 3. 그룹챗에서 getupdates를 이용하여 데이터 수집 4. 그룹챗에 메시지 보내기 5. 유저반응에 따라 대응하는 자동 응답형 봇 만들기 1. 텔레그램 봇 만들기 - BotFather를 이용한 텔레그램 봇 만들기 텔레그램 방에 BotFather를 검색하여 대화 시작한다. ‘/명령어’ 를 이용해 다양한 봇 생성 및 세팅을 할수 있다. /newbot - create a new bot /mybots - edit your bots ..
크롤링을 위해 web 사이트 로그인 후 게시판 목록의 url 링크를 검색한후 모아진 url을 이용해 크롤링하는 코드를 올린다 로그인은 저번 게시물에서 확인할 수 있다 목차의 링크를 받기 위해 목차 페이지에 들어가 목차가 어느 소스에 href로 매칭되어 있는지 확인한다. 확인이 어려울 경우, 'a' 검색후 모든 'href'를 받아온후 re 를 이용해 얻길 원하는 패턴의 url을 뽑는 방법도 있다. import pandas as pd from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.chrome.options import Options import time import re chrome_options = O..
사실 크롤링은 웹 html 구조만 잘 알고 있으면, chrome에서 F12를 통해 웬만한 데이터는 다 뽑아 올 수있다. 주로 크롤링을 위해 사용하는 라이브러리는 requests web url에 접근하고, html을 받아오는 용도 urlib web url에 접근하고, html을 받아오는 용도 selenium web url에 접근하고, html을 받아오는 용도 chrome driver를 이용하여 실제 마우스를 이용한 웹서핑을 가능하게 함 bs4 (BeautifulSoup) web url로 부터 받아온 html text를 parser 하여 원하는 정보를 찾을 수 있도록 도움 등이다 로그인을 위해서 requests의 post나 urllib 의 쿠키를 유지하는 방식으로 로그인을 한 이후 (session 유지) 원..
구글 번역 api는 크게 두가지로 나눌 수 있다. googletrans api : 오픈 소스 (하루 사용횟수 제한), google translate Ajax API를 사용함 15K 의 single text 제한 google cloud translation api : 구글 클라우드에서 제공하는 api, 무료/유료 Googletrans Basic Usage from googletrans import Translator translator = Translator() translator.translate('안녕하세요.') # translator.translate('안녕하세요.', dest='ja') # ', translation.text) # The quick brown fox -> 빠른 갈색 여우 # jump..
Transfer learning : universal sentence encoder multilingual 적용 환경 TF 2.3 간혹 안되면 TF2.0으로 내리면 됨 Sequential API (keras) 만 사용 가능 model url CNN : "https://tfhub.dev/google/universal-sentence-encoder-multilingual/3" Transformer : "https://tfhub.dev/google/universal-sentence-encoder-multilingual-large/3" 실행 문제 모델 등록 후 Online prediction 불가 이유는….잘 모르겠음 Keyed model을 이용하여 batch prediction 처리 불가 (transfer l..
Tranfer learning은 NLP 관련 Task에서 제한적인 양의 training data 가 쓰이고 있기 때문에 실제 연구나 실무에서 고 성능의 NLP 연구를 위해 transfer learning을 쓸 수 있다. (특히 word embedding 과 같은 부분에서; word2vec, GloVe) 최근 연구(2017) 에서는 word 단위가 아닌 sentence 단위의 embedding이 성능이 더 높다는 것이 입증 되었음 entence embedding을 위한 2가지 모델을 제시하며, 이 모델들은 좋은 성능을 입증되었다. 이에 embedding layer는 다국어의 변형이 가능한 (16개 언어) universal sentece encoder multilingual 모델을 이용하여 transfer ..