일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- XAI
- requests
- GenericGBQException
- Airflow
- spark udf
- Retry
- tensorflow text
- session 유지
- 상관관계
- API Gateway
- gather_nd
- flask
- login crawling
- integrated gradient
- API
- hadoop
- airflow subdag
- subdag
- grad-cam
- correlation
- Counterfactual Explanations
- 공분산
- TensorFlow
- chatGPT
- BigQuery
- youtube data
- UDF
- GCP
- 유튜브 API
- top_k
- Today
- Total
목록분류 전체보기 (424)
데이터과학 삼학년

Docker - Docker는 container 개념으로 가상공간(VM)안에서 Container를 만들어 그안에 image를 넣고 워크를 할 수 있음 가상 머신 vs Docker - 가상 머신은 컴퓨터 하드웨어를 가상화 (하드웨어 전체 추상화) > 하이퍼바이저 사용, 추가 OS 필요 등 성능 저하 이슈 존재 - Docker는 운영체제 레벨에서 별도로 분리된 실행환경을 제공 (커널 추상화) > 마치 리눅스 처음 설치했을 때와 유사한 실행환경을 만들어주는 리눅스 컨테이너 기술 기반 > 리눅스 컨테이너 기술이므로 macOS나 Windows에 설치할 경우는 가상 머신 기반 제공 - Docker는 경량 이미지로 실행환경을 통째로 백업, 실행 가능 (실무에 많이 사용됨) - Data Engineering에서 Doc..
파이썬에는 클로저라는 기법(?)이 있다. 얼핏보면 함수안에 함수를 넣는 것이 아니냐? 라는 생각이 들 수 있지만 closer는 조금 다르다. 클로저는 함수 본체에서 정의하지 않고 그저 참조만 하는 비전역 변수를 포함한 확장범위를 가진 함수다. 이를 좀 더 이해하기 위해 평균을 구하는 함수를 만든다고 하자 맨처음 값이 들어가면 그 값이 나오고 그 다음 값부터는 이전에 들어갔던 값들과 집어넣은 값의 평균을 배출하게 하는 함수를 만든다면??? 예를 들면 avg(10) --> 10 avg(11) --> 10.5 avg(12) --> 11 이런 식이다. 이를 일반적으로 class를 이용하여 코드를 작성하면 class Averager: def __init__(self): self.series =[] def __ca..

Computational thinking > 문제를 정의하고 해답을 일반화 하는 과정 → 결국 알고리즘 - 컴퓨터의 개념과 구조를 이해하고, 사용자가 기능을 추가, 개선하여 컴퓨터가 목적에 맞게 work를 하도록 구성함 ex) 튜링 머신 Python이란 - 1989년 크리스마스, 귀도반 로섬이 심심해서 만든 언어 - python 활용성 > 데이터분석, 기계학습, 웹개발, 게임, GUI(Tkinter,Pyqt) 등 > 속도가 중요한 프로그램은 python으로 구현하기에 제한적 (: cython, jython 등 활용하면 극복가능할 것으로 보임) - python 특징 > 인터프리터 : 한줄씩 읽어 내려가며 순차적 실행(대화형언어) ↔ 컴파일러(코드를 한번에 불러오고, compiler가 코드 최적화 후 실행)..

Big jobs, distributed training - parameter servers는 분산처리를 위한 뱅커와 같은 역할 > distributed가 될때 loss의 gradient값을 보내줌 > parameter server에서 받은 gradient들을 이용해 parameter들을 업데이트 시켜줌 > data parallelism을 위해 tf.estimator.train_and_evaluate 사용!! - 데이터 병렬화 > 각 worker에서 계산된 gradient 값들이 속도차에 의해서 parameter servers에 적용할때 중복된 것들이 일어날 수 있는데 이것은 상관없어, 모델이 학습되는데 영향을 받지 않는 다고 함(Large Scale Distributed Deep Networks , as..

Deep Neural Networks - DNN이란 아래 그림처럼 결국 linear regression의 모음이라 볼 수 있음 - 좀 더 복잡한(?) 모델이 되기 위해 중간 layer에서 non-linear한 변형 layer를 추가해야함(activation function) - tensorboard에 weight를 모니터링 할 수 있는 방법이 있고, relu의 경우에는 0이하 값은 모두 제로, 즉 layer에 연산된 결과가 모두 음수이면 0을 아웃풋으로 뽑아내는 케이스가 있기 때문에 이때, 다른 활성화 함수를 고려할 필요 있음 - hyper parameter를 튜닝하는 일반적인 방법 > hidden layer를 늘리면서, overfitting이 일어나면 > dropout 비율을 추가하며 바꿔줌 > lay..

파이썬의 class를 공부하다 보면 정적메서드, 클래스메서드, 추상메서드를 볼 수 있다. 추상 메서드? 이것이 무엇인지 한번 알아보도록 하겠다. 추상메서드는 한 class를 만들때 꼭 있어야하는 method를 관리하기 위한 목적으로 사용할 수 있다. 쓰는 용도를 예를 들면 사람이라는 class를 만든다면, 그안에는 먹는다는 method와 일한다는 method가 꼭 있어야 한다. (일은...뭐..선택적일 수 있지만...ㅋㅋ) 또 다른 예는 어떤 기기를 켰을때 꼭 로고가 나오거나 소리가 나오게 해야하는 method를 만들어야한다. 이때 실수로 로고가 나오거나 소리가 나오게 하는 method를 class안에 넣지 않으면 큰(?) 일이 나게 된다. 이런 것을 막기 위한 용도로 추상클래스를 만들어 두고, 이 추상..

Chat application - chat을 만들기 위해서는 서로 대화할 client와 이 둘의 대화를 이어줄 server가 필요함 - 우리가 일반적으로 대화를 나누면 소리가 공기를 통해 전달됨 → 공기의 역할을 server가 수행하는 것이라고 보면 됨 - 대화를 컨트롤하는 것이 server client ←→ server ←→ client sender receiver - python으로 구현하기 위해서 1.server, 2.client python 파일을 만들면 됨 - low-level network program으로 대표적인 → python socket을 이용하여 구성 1. server script - 서버는 chat에 필요한 모든 logic을 가지고 있어야함 > network communication..

Linear & logistic regression - logistic regression → cross entropy 함수와 비슷 - threshold를 잡고 이와 비교해 얼마나 차이가 나냐를 볼 수 있는 것은 linear로는 할 수가 없음 - 분류문제에서 threshold의 개념을 보고 정할 수 있는 방법 → roc curve > 왼쪽 상단에 가까워질 수록 정확도가 높은 좋은 모델이라 할 수있음 - ROC 커브에서 커브 아래 면적을 이용해 가능한 THRESHOLD를 정할 수 있음(AUC) Area Under Curve 머신러닝의 아주 기초인 Linear regression 과 Logitstic regression은 기본을 탄탄히! 결국 deep learning도 linear regression이다. ..