일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- requests
- TensorFlow
- flask
- login crawling
- UDF
- session 유지
- GenericGBQException
- top_k
- grad-cam
- BigQuery
- API Gateway
- Retry
- Counterfactual Explanations
- XAI
- correlation
- integrated gradient
- youtube data
- 공분산
- chatGPT
- 상관관계
- Airflow
- gather_nd
- 유튜브 API
- subdag
- API
- tensorflow text
- GCP
- airflow subdag
- hadoop
- spark udf
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년
- huggingface에서 모델을 임포트하여 TF로 사용하려 할때!! ㄴ 파이토치 가중치만 존재하는 모델이 있다. - 이때 tf에서 사용할 수 있는 방법은!!!! 존재한다. 바로... ㄴ from_pt=True from transfomers import TFAutoModel model_ckt = 'distilbert-base-uncased' tf_model = TFAutoModel.from_pretrained(model_ckt) ## 파이토치 가중치만 있는 모델 model_ckt_torch = 'xlm-roberta-base' tf_xlmr = TFAutoModel.from_pretrained(model_ckt_torch, from_pt=True) -> 자동으로 파이토치 가중치를 다운로드해 변환
자연어 처리 모델로 요즘 허깅페이스에서 pretrained model 많이 쓰는데.. 모델중 -uncased, -cased 라는 명이 있다! 이것이 무엇을 의미하는 것일까?! cased - 텍스트 전처리 과정에서 별도의 처리를 하지 않고 문자 그대로 내놓는것 uncased - 텍스트 전처리 과정에서 소문자 변환, 강조변환을 없애는 등 어느정도 데이터를 정제한 것 # BERT uncased OpènGènus -> opengenus OpenGenus -> opengenus # BERT cased OpènGènus OpenGenus 참조 BERT cased vs BERT uncased We have explored the difference between BERT cased and BERT uncased. B..

Airflow execution_date (logical_date) - execution_date는 DAG 인스턴스가 실행되는 시점의 날짜와 시간을 나타냄 - 스케쥴링 전략에 따라 정해지는 실행 시간 -> schedule_interval에 의해 결정 - 스케쥴링에 의해 실행되지만 이전 스케쥴된 시간이 execution_date가 됨 >> execution_date = dag이 실해되는 시간 - schedule_interval 예시 - 매일 5시(하루1번)에 실행되도록 만든 DAG가 있다. (00 17 * * *) ㄴ 실행시간 : 2023-03-15 17시 이면 : execution_date -> 2023-03-14 17시 - 매시 10분 (하루 24번)에 실행되도록 만든 DAG가 있다. (10 * * *..

TensorRT - Tensorflow의 latency를 낮춰 좋게 만들기위한 방법으로 TensorRT로 변환!!! - inference 최적화 및 latency를 최소화히기위한 플랫폼 - NVIDIA GPUs환경에서 작동 - TensorRT로 모든 주요 프레임웍에서 동작시킬수 있음 Tensorflow → TensorRT 변환 방법 - GPU환경에서 변환 가능 → TensorRT는 GPU에서 작동 가능함 - CPU에서 최적화하고 싶다면 OpenVino나 ONNX를 사용 from tensorflow.python.compiler.tensorrt import trt_convert as trt # Conversion Parameters conversion_params = trt.TrtConversionParam..
어트리뷰트 (Attribute) - 어트리뷰트는 파이썬 객체(object) 내에서 저장된 데이터(변수)나 메서드를 나타냄 - 객체의 속성(attribute)은 해당 객체의 상태나 동작을 나타내며, 객체의 내부 변수나 메서드 이름을 가리킴 - 어트리뷰트는 점(.)을 사용하여 객체의 이름 공간(namespace)에서 접근 가능 - 클래스의 멤버 변수나 메서드는 해당 클래스의 어트리뷰트 class MyClass: class_attribute = 42 # 클래스 어트리뷰트 def __init__(self): self.instance_attribute = 10 # 인스턴스 어트리뷰트 obj = MyClass() print(obj.instance_attribute) # 인스턴스 어트리뷰트 접근 print(MyCla..

인간은 새로운 물체를 볼때 적은 양의 샘플로도 구별할 수 있는데 기계(머신)은 수천장의 샘플이 필요함 제한된 양의 샘플로도 학습하여 만족할 만한 기계학습을 이루기 위한 개념에서 나온 Zero-Shot, One-Shot, Few-Shot learning 을 살펴보자~!!! >> meta learning -> learn to lerarn 학습하는 방법을 학습하는 것 >> 즉, 사람이 물체를 구별하는 방법을 학습하게 하는 시스템 -> 적은 양의 데이터로도 가능 Few shot learning vs Supervised learning - Supervised learning : Test image ( Query image ) 의 클래스가 Training set에 있음!! -> 학습에 강아지 사진을 주고 강아지를 ..

Copy On Write - 쓸 때 데이터를 병합 → 쓰기 성능은 떨어지지만 읽기 성능은 더 높음 - 변경데이터에 대해서 batch로 처리 - 데이터를 합쳐서 하나의 parquet 파일을 생성 >> 새로운 데이터가 유입될때 기존 데이터를 copy하고 새로운 데이터를 추가하여 새로운 version의 데이터를 만듦 Merge On Read - 읽기 중에 병합을 수행하여 읽기 성능을 확인 → 데이터를 적시에 쓰기 때문에,거의 실시간 데이터 분석 기능을 제공할 수 있음 - 변경데이터에 대해서 실시간으로 처리 - 변경분 데이터에 대해서는 avro로 저장 - 1분단위 commit - 5분단위 data compaction 을 하고 해당파일이 base file(parquet)로 됨 - 사용자에게 ReadOptimize..

데이터 파티셔닝 - 데이터의 사이즈가 큰 테이블을 두 개 이상의 작은 테이블로 나누는 것 -> 파티셔닝 - 쿼리가 스캔할 데이터의 범위를 좁혀서 응답시간을 빠르게 하기 위한 목적 - 수평적 파티셔닝 -> 기간에 대해 놓는것 일반적?! - 수직적 파티셔닝 데이터 샤딩 - 대량의 데이터를 여러 물리적인 위치 또는 데이텁 베이스 서버에 저장하는 과정 또는 방법 - scale-up -> scale-out으로 가면서 데이터 베이스의 일관된 기능을 사용할 수 있도록 하는 기술 - 데이터 베이스 서버가 샤드라는 데이터 조각을 가지고 있는 개념에서 착안하여 나온 용어 참고 https://fastcampus.co.kr/courses/209597 커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스 성인 교육 서비..