일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- BigQuery
- chatGPT
- subdag
- requests
- login crawling
- integrated gradient
- session 유지
- Airflow
- grad-cam
- UDF
- XAI
- Counterfactual Explanations
- Retry
- gather_nd
- correlation
- API
- GCP
- 유튜브 API
- top_k
- youtube data
- airflow subdag
- TensorFlow
- GenericGBQException
- hadoop
- tensorflow text
- 상관관계
- spark udf
- API Gateway
- 공분산
- flask
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년
Braces (중괄호) f-string을 쓸 때, 중괄호가 나오게 하려면 중괄호를 2개 쓰면 된다. f"{{70 + 4}}" # '{70 + 4}' 중괄호를 3개쓰면, single brace의 결과가 산정되고, 중괄호 표시가 string 상으로 나타남 f"{{{70 + 4}}}" #'{74}' 중괄호를 3개 초과해서 사용하면 단순히 중괄호가 스트링 그 자체로 나타남 f"{{{{70 + 4}}}}" #'{{70 + 4}}' https://realpython.com/python-f-strings/ Python 3's f-Strings: An Improved String Formatting Syntax (Guide) – Real Python As of Python 3.6, f-strings are a grea..

네트워크 원리 - 1. 웹 브라우저가 메시지를 만든다. HTTP 리퀘스트 메시지를 작성한다. 웹 서버의 IP 주소를 DNS 서버에 조회한다 전 세계의 DNS 서버가 연대한다. 프로토콜 스택에 메시지 송신을 의뢰한다. 1. HTTP 리퀘스트 메시지를 작성한다. URL로부터 모든 통신은 시작됨 http:, file:, ftp:, mailto: 등 액세스하는 방법을 나타냄 액세스 대상이 웹서버이면 http라는 프로토콜을 이용, file다운/업로드면 ftp 이용 프로토콜 : 통신동작의 규칙을 정한 것 [1] 브라우저는 먼저 URL을 해독한다. 브라우저가 처음 하는 것은 웹서버에 보내는 리퀘스트 메시지를 작성하기 위해 URL을 해독하는 것 예) http://www.lab.cyber.co.kr/dir1/file1...

Bagging (Bootsrap Agregating) - 훈련세트에서 중복을 허용(Bootstrap)하여 샘플링하는 방식 Pasting - 훈련세트에서 중복을 허용하지 않고 샘플링하는 방법 배깅과 페이스팅 모두 훈련세트의 서브셋을 무작위로 구성하여 다양한 알고리즘을 학습시키고 각 알고리즘의 결과를 종합하여 최종 결과를 내놓는 방식(앙상블)이다. 앙상블 결과 산정 (일반적) > 분류 : 통계적 최빈값 > 회귀 : 평균값 예시 코드 sklearn 의 BaggingClassifier(BaggingRegressor)로 배깅과 페이스팅을 모두 구성가능하다. from sklearn.ensemble import BaggingClassifier from sklearn.tree import DecisionTreeClas..

RECSIM: A Configurable Simulation Platform for Recommender System (2019) Basic Knowledge 전통적인 추천 시스템은 유저 행동에 기반한 한시적 추천에 중점을 맞추는 반면, 최근 모델들은 유저 행동과 선호를 기반으로 순차적인 상호작용을 반영하여 최적의 추천 시스템을 만들고 있음 이러한 추천방식은 collaborative interactive recomender (CIRs)로 알려져 있으며, 자연어처리와 딥러닝과 같은 영역에서 주로 사용되고 있음 최근에 google은 CIRs의 시뮬레이션 환경을 만드는 플랫폼인 RecSim을 발표함 기존 CIRs의 한계는 다른 유저들의 상호작용 시나리오에 대해 시뮬레이션하기 어렵다는 것이었음 강화학습 시스템이 ..

KS test (Kolmogorov–Smirnov test) - ks test는 non-parametric test 방법 (비모수적) - 1개의 확률 분포를 검정하는 방버법과 두개의 샘플데이터를 검증하는 방법으로 나뉨 - 누적 확률분포(CDF)를 이용하여 표본의 확률 분포가 모집단의 확률 분포와 얼마나 유사한지를 비교하는 방법 or 두 표본의 누적 확률 분포 차이 비교 - ks statistics (ks 통계량)은 실제 데이터의 누적 확률 분포와 모집단의 누적 확률분포간의 차이를 거리로 산정한 통계 Kolmogorov–Smirnov statistic - 기본 가정 : 독립(iid) - ks statistic > F(X) : 모집단의 누적확률 함수 > Fn(X) : 관찰한 샘플들의 누적확률 함수 > ks ..

RecSim - Google Recommendation System (2019) 전통적인 추천 시스템은 유저 행동에 기반한 한시적 추천에 중점을 맞추는 반면, 최근 모델들은 유저 행동과 선호를 기반으로 순차적인 상호작용을 반영하여 최적의 추천 시스템을 만들고 있음 이러한 추천방식은 collaborative interactive recomender (CIRs)로 알려져 있으며, 자연어처리와 딥러닝과 같은 영역에서 주로 사용되고 있음 최근에 google은 CIRs의 시뮬레이션 환경을 만드는 플랫폼인 RecSim을 발표함 기존 CIRs의 한계는 다른 유저들의 상호작용 시나리오에 대해 시뮬레이션하기 어렵다는 것이었음 행동과 실험기반의 강화 학습은 주어진 환경에서 순차적 상황을 반영할 수 있음 전통적인 지도학습 ..

Kernel Density Estimation (KDE)을 이용한 이상탐지 - 아래 그림과 같이 기존 데이터가 주어지고, 어떠한 한 Point에 대해 이상치를 탐지한다고 가정 - 위 데이터에 대해 이상치를 구한다고 하면, 초록색으로 표시된 point가 이상치인지는 기존의 data들의 분포를 비교하여 탐지할 수 있음 밀도 기반의 이상탐지 방법 두 개의 변수에 대한 분포를 나타냄 각 분포의 밀도를 통해 분포에서 벗어난 정도를 이용해 이상치를 탐지 데이터의 밀도를 추정하는 함수 P(x)를 이용하여 각 point마다 P(x) 를 산정 임계 값인 threshold를 정하고, 해당 point의 함수값이 임계값보다 작은지를 확인하여 이상치 탐지 확률밀도함수를 기반으로 밀도 추정 parametric dataset이 정..

빅쿼리 프로시져는 함수처럼 작동한다. 즉, 프로시져 자체를 재귀적으로 호출 가능하다 그렇다면, 대표적인 recursion 문제인 피보나치 수열을 빅쿼리를 이용해 구현해보자! 구현 코드 # Bigquery procedure를 이용하여 recursion 피보나치 수열 함수 만들기 CREATE OR REPLACE PROCEDURE bdh.Fibo(INOUT x INT64) BEGIN DECLARE a,b INT64; IF x