일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- session 유지
- tensorflow text
- integrated gradient
- 공분산
- XAI
- Retry
- Counterfactual Explanations
- TensorFlow
- Airflow
- login crawling
- airflow subdag
- subdag
- youtube data
- top_k
- requests
- GenericGBQException
- GCP
- chatGPT
- 유튜브 API
- flask
- API Gateway
- 상관관계
- API
- grad-cam
- UDF
- hadoop
- gather_nd
- spark udf
- correlation
- BigQuery
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년

컴퓨터란 컴퓨터의 정의 전자회로를 이용하여 데이터를 처리하는 장치 방대한 데이터를 저장하고 계산 입력,제어,기억,연산,출력 기능 컴퓨터가 하는 일 복잡한 계산(미적분, 통계 등) 초정밀 그래픽구현 (배그같은) 네트워크 통신 컴퓨터의 역사 - 고대 계산 도구로서 처음은 주판 기원전 약 3000년전 고대 메소포타미아에서 사용 → 17세기에도 주판 이용 컴퓨터의 역사 - 중세 1642년 프랑스 수학자 파스칼이 톱니바퀴를 이용한 계산기 발명 최초의 기계식 계산기 덧셈, 뺄셈 가능 1671년 독일의 라이프니츠가 이를 개량해 곱셈, 나눗셈도 가능한 것 발명(2진법) 컴퓨터의 역사 - 근현대 19세기 중반 영국의 찰스 배비지가 차분엔진 발명 현태 컴퓨터의 개념을 제시 → 차분엔진 프로그램과 데이터로 구성된 입력은 천..

stack 2개를 이용하면 queue를 만들 수 있다. stack은 LIFO (Last In First Out) queue 는 FIFO (First In First Out) 즉, stack을 두개를 이용해서 빈 스택에 다른 스택을 담고 다시 빼는 식으로 queue를 만들 수 있는 것이다. 구현 코드 예시 # stack 2개로 queue 만들기 class Stack: def __init__(self): self.stack = [] def __repr__(self): return f"{self.stack}" def push(self,item): self.stack.append(item) def pop(self): return self.stack.pop() def is_empty(self): if len(se..

Anomaly Detection in Time Series Data Based on Unthresholded Recurrence Plots (2018) Abstract - 시계열 데이터에서 이상치를 감지하는 것은 매우 큰 흥미를 끌고 있다. 비선형 방법 기반의 새로운 framework을 제안함 time-dependent한 URP(Unthresholded Recurrence Plots)를 사용 시계열 데이터를 나타내는 이미지 데이터 생성하고, 비선형적인 특징을 찾기 위함 ELM-AE (Extreme Learning Machine Auto-Encoder) 를 이용 주된 URP 데이터를 학습시킨 모델 생성 잔차 계산 (residual error) 시계열 포인트에서 anomaly score로 잔차를 사용 - 해..

Anomaly Detection; 이상탐지는 보다 나은 모델의 학습을 위해 선행되거나, 특수한 목적을 통해 이상치를 잡아내는 탐지 과정이라고 생각함 Anomlay Detection은 크게 아래와 같이 3가지로 나눌 수 있음 1. Point Anomaly Detection - 특정 point의 이상치를 감지 - 일반적으로 말하는 데이터내 outlier 2. Contextual Anomaly Detection - 연속적인 변화 패턴을 읽어 이상치 감지 - 맥락을 고려해서 예상변화와 동떨어진 결과 탐지 - 민감하면 정상상황에서도 이상탐지가 되고, 둔감하게 만들면 비정상상황에서 이상탐지를 놓칠 수 있음 3. Collective Anomaly Detection - 연관있는 2개 이상의 데이터의 변화 탐지 - 매출..

Q-Q Plot 데이터의 정규성을 파악할때, QQ plot을 이용해 확인할수 있다. 이론적으로 데이터가 정규성을 따를때 quantiles 값을 x 축 실제 데이터들의 quantiles 값을 y 축 표현하게 된다. 이렇게 되면 데이터가 완전한 정규분포를 이루게 되면 아래와 같은 그림이 나오게 된다. 데이터에 skewed 가 있을때 Q-Q Plot Figure. 1. 분위수 대 분위수 플롯(Q-Q plot, quantile-quantile plot)[각주:1] ⑴ (참고) 분위수(quantile) ① 분위수 함수 : 누적분포함수 Φ의 역함수 정의역 :{x | 0 ≤ x ≤ 1} 치역 : 관심 있는 집단의 통계량 ② 구간의 개수에 따라 100분위수(percent), 4분위수(quartile) 등이 존재 ⑵ 정..
파이썬에서 순열과 조합의 경우를 구하는 방법 itertools를 이용하자! Permutation (순열) import itertools for perm in itertools.permutations(['a','b','c']): print(perm) # === ('a', 'b', 'c') ('a', 'c', 'b') ('b', 'a', 'c') ('b', 'c', 'a') ('c', 'a', 'b') ('c', 'b', 'a') Combination (조합) -3C2 [1,2,3] 에서 2개를 가지고 조합을 만들때, itertools.combinations(list, ) import itertools for comb in itertools.combinations(['a','b','c'],2): print(..
In [1]: import pandas as pd import numpy as np # Make numpy values easier to read. np.set_printoptions(precision=3, suppress=True) import tensorflow as tf from tensorflow.keras import layers from tensorflow.keras.layers.experimental import preprocessing In [2]: PROJECT_ID = "project_id" BUCKET_NAME = "bucket_name" REGION = "us-central1" In [3]: !gcloud config set project $PROJECT_ID !gcloud conf..

Snorkel 소개 소개 직면한 문제를 해결하기 위해 ML을 사용하는 것은 일상이 됨 효과적인 ML은 비지도학습보다 지도학습이 보다 용이함 지도학습이 Model 학습뿐 아니라 학습한 Model을 평가하기 용이 지도학습을 위해서는 결국 Labeling 데이터가 필요 snorkel은 data를 labeling을 하는데 도움을 주는 라이브러리 hand-labeling 하는데 수 주,달의 시간이 걸린다면 해당 library를 통해서 수시간, 일이면 큰 규모의 학습 데이터 셋을 구축할 수 있음 핵심 기능 Labeling data 휴리스틱한 규칙 / 원격 지도 기술 Transforming data 반복 혹은 image 변환을 통한 데이터 생성 (data augmentation) Slicing data subset ..