일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- requests
- GCP
- TensorFlow
- hadoop
- login crawling
- Airflow
- UDF
- session 유지
- Counterfactual Explanations
- 공분산
- flask
- 상관관계
- Retry
- XAI
- chatGPT
- spark udf
- top_k
- API
- subdag
- grad-cam
- correlation
- youtube data
- tensorflow text
- BigQuery
- airflow subdag
- 유튜브 API
- API Gateway
- GenericGBQException
- gather_nd
- integrated gradient
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년

SOTA (State-of-the-Art) 가장 최신의 성능 좋은 모델들...어떻게 확인할까?! 아래 사이트를 가면...확인 가능!!! 논문과 깃헙 주소까지 한번에 확인이 가능하다!!!!!!!!!! 데이터셋별 가장 좋은 성능의 퍼포먼스를 낸 모델까지 정리되어 있다! https://paperswithcode.com/sota Papers with Code - The latest in Machine Learning Papers With Code highlights trending Machine Learning research and the code to implement it. paperswithcode.com
데이터 직렬화는 데이터를 바이트 스트림으로 변환하여 저장하거나 전송하는 과정을 말합니다. 이를 통해 데이터를 구조화된 형식으로 표현하고, 다른 플랫폼 간에 데이터를 교환하거나 저장할 수 있습니다. 다양한 데이터 직렬화 종류가 있으며, 주요한 몇 가지를 아래에 설명합니다: JSON (JavaScript Object Notation): JSON은 텍스트 기반의 경량 데이터 교환 형식으로, JavaScript에서 객체를 표현하는 데 사용됩니다. 하지만 다른 프로그래밍 언어에서도 널리 사용됩니다. JSON은 읽기 쉽고 구조화된 데이터를 표현하기 위해 중괄호와 쉼표를 사용합니다. XML (Extensible Markup Language): XML은 텍스트 기반의 데이터 교환 형식으로, 마크업 언어를 사용하여 데이..

SCIKIT_LLM open-AI의 llm 모델을 사용하기 편리하게 나온 툴 sklearn + llm(large language model) 익숙한 sklearn 학습, 예측 방식으로 llm의 모델들을 편리하게 활용 가능 llm의 모델들을 쓰는 장점 → 텍스트를 벡터화하고 전처리하는 과정들이 생략될 수 있다.!!! 아래 예제를 통해 확인!!! Configuring OpenAI API Key Scikit-LLM estimators 는 OpenAI API key 가 필요 from skllm.config import SKLLMConfig SKLLMConfig.set_openai_key("") SKLLMConfig.set_openai_org("") free 라이센스의 경우, 1분당 3번의 요청으로 요청 제한이 ..
오버헤드(overhead)는 어떤 처리를 하기 위해 들어가는 간접적인 처리 시간 · 메모리 등을 말한다. >> 간단히 말하면 간접비용!!! -> 직접적인 생산외 추가로 걸리는 시간이나 비용 예를 들어 A라는 처리를 단순하게 실행한다면 10초 걸리는데, 안전성을 고려하고 부가적인 B라는 처리를 추가한 결과 처리시간이 15초 걸렸다면, 오버헤드는 5초가 된다. 또한 이 처리 B를 개선해 B'라는 처리를 한 결과, 처리시간이 12초가 되었다면, 이 경우 오버헤드가 3초 단축되었다고 말한다 https://ko.wikipedia.org/wiki/%EC%98%A4%EB%B2%84%ED%97%A4%EB%93%9C
SPOF(단일 장애 지점, Single Point of Failure)는 시스템 또는 프로세스 내에서 발생할 수 있는 장애 중 하나로서, 해당 요소가 고장 또는 오류가 발생할 경우 전체 시스템 또는 프로세스의 동작이 중단되는 상태를 말합니다. SPOF는 시스템의 안정성과 가용성에 큰 영향을 미칠 수 있으며, 시스템 설계 시 피해야 하는 요소입니다. SPOF는 시스템 내의 특정 컴포넌트, 하드웨어, 네트워크, 소프트웨어 또는 인프라스트럭처에서 발생할 수 있습니다. 예를 들어, 데이터 센터에서 모든 네트워크 트래픽이 단일 라우터를 통과하거나, 웹 서버에서 단일 서버로 모든 요청을 처리하는 등의 경우가 SPOF의 예시입니다. SPOF의 문제는 해당 요소에 장애가 발생할 경우 전체 시스템이 영향을 받고 중단될 ..

Data imbalanced 데이터 불균형 문제에서 Oversampling을 많이들 사용한다. 카테고리컬 변수를 ovesampling할 수 있는 방법은 없을까?! 있다...!!!! SMOTENC (numeric and categorical)!!! >> SMOTE-NC for dataset containing numerical and categorical features. 단, categorical feature만 가진 데이터에는 사용할 수 없다 -> 다른 numeric variable의 값을 이용해 categorical variable을 증식시키는 알고리즘이기 때문!!!! SMOTENC - SMOTE"는 Synthetic Minority Over-sampling Technique의 약자이며, - "NC"..

쿠버네티스(Kubernetes)는 컨테이너화된 애플리케이션을 자동으로 배포, 확장, 관리하는 오픈소스 플랫폼입니다. 이 를 통해 애플리케이션의 개발과 배포가 훨씬 효율적이고 안정적으로 이루어질 수 있습니다. 쿠버네티스는 여러 대의 서버(호스트)를 클러스터라는 그룹으로 구성하고, 이 클러스터 내에서 동작하는 컨테이너화된 애플리케이션을 관리합니다. 각각의 서버는 워커 노드(Worker Node)라고 불리며, 이 노드들은 쿠버네티스 클러스터의 일부가 됩니다. 쿠버네티스의 핵심 개념 중 하나는 파드(Pod)입니다. 파드는 하나 이상의 컨테이너 그룹을 포함하며, 이 컨테이너들은 함께 동작하고 네트워크와 스토리지 리소스를 공유할 수 있습니다. 즉, 파드는 애플리케이션의 기본 실행 단위입니다. 쿠버네티스는 파드를 생..
파이썬에서는 실수를 표현하는 방법으로 부동소수점을 쓴다. >> 간단히 말해 0.1이 진짜 0.1이 아니다. 0.1 + 0.2 # 0.30000000000000004 파이썬의 0.1은 실제로 아래와 같이 0.1이 아닌 0.1에 가까운 값을 나타낸다. 0.1000000000000000055511151231257827021181583404541015625 따라서 0.1+02 = 0.3이 아니게 됨...(실제) 이렇기 때문에 계산할때 특히 금융데이터에서 유의해야함. 부동소수점 연산의 정확성 유지하기 부동소수점 연산에서 주의해야 할 몇 가지 일반적인 문제는 반올림 오차와 비교 연산의 부정확성 이를 방지하기 위해 파이썬에서는 Decimal 모듈을 제공 Decimal 모듈은 고정 소수점 연산을 수행하며, 정확한 결과..