일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- hadoop
- youtube data
- session 유지
- subdag
- GenericGBQException
- GCP
- TensorFlow
- 유튜브 API
- gather_nd
- airflow subdag
- API
- tensorflow text
- grad-cam
- spark udf
- UDF
- 공분산
- requests
- 상관관계
- API Gateway
- top_k
- Airflow
- Counterfactual Explanations
- Retry
- chatGPT
- login crawling
- XAI
- flask
- BigQuery
- correlation
- integrated gradient
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년

- 정상성(stationarity)을 가지는 데이터란 어떠한 분포 (정규분포 등)을 따르는 데이터를 의미함 정상성 (Stationarity) - 정상성(stationarity)을 나타내는 시계열은 시계열의 특징이 해당 시계열이 관측된 시간에 무관 - 추세나 계절성이 있는 시계열은 정상성을 나타내는 시계열이 아님 - 추세와 계절성은 서로 다른 시간에 시계열의 값에 영향을 줄 것이기 때문 - 반면에, 백색잡음(white noise) 시계열은 정상성을 나타내는 시계열 > 언제 관찰하는지에 상관이 없고, 시간에 따라 어떤 시점에서 보더라도 똑같이 보일 것 몇 가지 경우는 헷갈릴 수 있습니다 — 주기성 행동을 가지고 있는 (하지만 추세나 계절성은 없는) 시계열은 정상성을 나타내는 시계열입니다. 왜냐하면 주기가 고..

Cloud Scheduler 를 이용한 vm instance 관리 1. 개요 - 리소스 라벨을 사용해서 정기적으로 Compute Engine 인스턴스를 자동 시작 및 중지하기 위해 Cloud Scheduler 및 Cloud Functions를 사용하는 방법 고성능의 vm을 업무시간에 맞춰 자동으로 on / off 함으로써 비용 감소 주말 자동 off 2. 프로세스 - Cloud function을 이용한 vm on off 함수 작성 → Cloud scheduler를 이용한 실행 (pub/sub 이용) Compute Engine : 정기적으로 실행하려고 하는 Compute Engine 인스턴스 Cloud Functions : 예약하려는 인스턴스를 시작하고 중지하는 함수 Pub/Sub : 시작 및 중지 이벤트..

# 딥러닝 분야에서 이미지 인식은 활발히 진화하고 있다. 특히 기존의 정형화된 data(tabular) 보다 이미지나 텍스트를 분석하는데 딥러닝이 활발하게 사용되고 있는 추세이다. 이는 tabular 데이터를 이미지화 혹은 텍스트화 한다면, 더 많은 종류의 딥러닝 알고리즘(transfer learning 등)을 적용하여, 좋은 성과를 얻을 수 있다는 것 과 같다. 이에 Tabluar 데이터를 딥러닝에 넣는 것 보다, Tabluar 데이터를 이미지화하여 이미지 모델에 넣는 방법 시도가 나왔고, 시계열 데이터를 이미지로 표현하는 방법중 하나로 recurrence plot을 사용할 수 있다. Recurrence plots - RP는 시계열 데이터를 m차원의 공간 궤적에 그리고, 각 공간궤적에 위치한 점간의 거..

크롤링을 위해 web 사이트 로그인 후 게시판 목록의 url 링크를 검색한후 모아진 url을 이용해 크롤링하는 코드를 올린다 로그인은 저번 게시물에서 확인할 수 있다 목차의 링크를 받기 위해 목차 페이지에 들어가 목차가 어느 소스에 href로 매칭되어 있는지 확인한다. 확인이 어려울 경우, 'a' 검색후 모든 'href'를 받아온후 re 를 이용해 얻길 원하는 패턴의 url을 뽑는 방법도 있다. import pandas as pd from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.chrome.options import Options import time import re chrome_options = O..

사실 크롤링은 웹 html 구조만 잘 알고 있으면, chrome에서 F12를 통해 웬만한 데이터는 다 뽑아 올 수있다. 주로 크롤링을 위해 사용하는 라이브러리는 requests web url에 접근하고, html을 받아오는 용도 urlib web url에 접근하고, html을 받아오는 용도 selenium web url에 접근하고, html을 받아오는 용도 chrome driver를 이용하여 실제 마우스를 이용한 웹서핑을 가능하게 함 bs4 (BeautifulSoup) web url로 부터 받아온 html text를 parser 하여 원하는 정보를 찾을 수 있도록 도움 등이다 로그인을 위해서 requests의 post나 urllib 의 쿠키를 유지하는 방식으로 로그인을 한 이후 (session 유지) 원..

회귀분석을 하기위해 사용하는 방법은 OLS (Ordinary Least Squares, 표준 회귀분석) 이다. OLS는 BLUE 라는 개념이 뒷받침 되어야 한다. BLUE : Best Linear Unbiased Estimator 로 가장 최적의 추정방법을 말한다. OLS 는 GM(Gauss-Markov) 의 5가지 가정을 충족시켜야 한다 GM ASSUMTIONS은 아래와 같다. 위 각 가정은 아래 그림과 같은 관계성이 있어서 OLS에서 꼭 지켜져야한다 위 5가지 가정 중 충족이 가장 어려운 것은 endogeneity (내생성) 문제이다. endogenetiy (내생성) 문제는 곧 Consistent에 영향을 주게되어 BLUE를 충족하는데 큰 장애가 된다. 여기서 endogenetiy (내생성) 에 대해..
구글 번역 api는 크게 두가지로 나눌 수 있다. googletrans api : 오픈 소스 (하루 사용횟수 제한), google translate Ajax API를 사용함 15K 의 single text 제한 google cloud translation api : 구글 클라우드에서 제공하는 api, 무료/유료 Googletrans Basic Usage from googletrans import Translator translator = Translator() translator.translate('안녕하세요.') # translator.translate('안녕하세요.', dest='ja') # ', translation.text) # The quick brown fox -> 빠른 갈색 여우 # jump..
젠킨스 파이프라인에서 다른 vm ssh에 접속해 데이터 전처리를 처리하는 것을 알아본다. 젠킨스는 1번 vm에 깔려 job을 관리하고 있고 젠킨스에서 내린 명령은 2번 vm에서 parallel로 돌기를 원한다 Pipeline 1. 젠킨스가 깔린 1번 vm에서 실행시키고자 하는 코드를 git으로 부터 받는다. 2. 1번 vm에 있는 코드를 2번 vm에 복사하여 넣는다 (gcloud compute scp) 3. 2번 vm에서 parallel로 돌도록 명령을 내린다 (gcloud compute ssh) 젠킨스 파이프라인 코드 def preprocessParallel(LANGUAGE, N_SPLIT, MODE) { sh """ gcloud compute ssh anomaly-detection-pan --proj..