데이터과학 삼학년

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (424)

데이터과학 삼학년

SOTA (State-of-the-Art) 가장 최신의 성능 좋은 모델들...어떻게 확인?!

SOTA (State-of-the-Art) 가장 최신의 성능 좋은 모델들...어떻게 확인할까?! 아래 사이트를 가면...확인 가능!!! 논문과 깃헙 주소까지 한번에 확인이 가능하다!!!!!!!!!! 데이터셋별 가장 좋은 성능의 퍼포먼스를 낸 모델까지 정리되어 있다! https://paperswithcode.com/sota Papers with Code - The latest in Machine Learning Papers With Code highlights trending Machine Learning research and the code to implement it. paperswithcode.com

Machine Learning 2023. 8. 6. 23:34

[용어] 데이터 직렬화(serialization)

데이터 직렬화는 데이터를 바이트 스트림으로 변환하여 저장하거나 전송하는 과정을 말합니다. 이를 통해 데이터를 구조화된 형식으로 표현하고, 다른 플랫폼 간에 데이터를 교환하거나 저장할 수 있습니다. 다양한 데이터 직렬화 종류가 있으며, 주요한 몇 가지를 아래에 설명합니다: JSON (JavaScript Object Notation): JSON은 텍스트 기반의 경량 데이터 교환 형식으로, JavaScript에서 객체를 표현하는 데 사용됩니다. 하지만 다른 프로그래밍 언어에서도 널리 사용됩니다. JSON은 읽기 쉽고 구조화된 데이터를 표현하기 위해 중괄호와 쉼표를 사용합니다. XML (Extensible Markup Language): XML은 텍스트 기반의 데이터 교환 형식으로, 마크업 언어를 사용하여 데이..

Computer Science 2023. 8. 1. 13:00

SCIKIT_LLM (sklearn + llm), large language model을 쉽게 쓰자!!!

SCIKIT_LLM open-AI의 llm 모델을 사용하기 편리하게 나온 툴 sklearn + llm(large language model) 익숙한 sklearn 학습, 예측 방식으로 llm의 모델들을 편리하게 활용 가능 llm의 모델들을 쓰는 장점 → 텍스트를 벡터화하고 전처리하는 과정들이 생략될 수 있다.!!! 아래 예제를 통해 확인!!! Configuring OpenAI API Key Scikit-LLM estimators 는 OpenAI API key 가 필요 from skllm.config import SKLLMConfig SKLLMConfig.set_openai_key("") SKLLMConfig.set_openai_org("") free 라이센스의 경우, 1분당 3번의 요청으로 요청 제한이 ..

Machine Learning 2023. 7. 31. 13:00

[용어] 오버헤드

오버헤드(overhead)는 어떤 처리를 하기 위해 들어가는 간접적인 처리 시간 · 메모리 등을 말한다. >> 간단히 말하면 간접비용!!! -> 직접적인 생산외 추가로 걸리는 시간이나 비용 예를 들어 A라는 처리를 단순하게 실행한다면 10초 걸리는데, 안전성을 고려하고 부가적인 B라는 처리를 추가한 결과 처리시간이 15초 걸렸다면, 오버헤드는 5초가 된다. 또한 이 처리 B를 개선해 B'라는 처리를 한 결과, 처리시간이 12초가 되었다면, 이 경우 오버헤드가 3초 단축되었다고 말한다 https://ko.wikipedia.org/wiki/%EC%98%A4%EB%B2%84%ED%97%A4%EB%93%9C

Computer Science 2023. 7. 27. 00:04

[용어] SPOF (Single Point Of Failure)

SPOF(단일 장애 지점, Single Point of Failure)는 시스템 또는 프로세스 내에서 발생할 수 있는 장애 중 하나로서, 해당 요소가 고장 또는 오류가 발생할 경우 전체 시스템 또는 프로세스의 동작이 중단되는 상태를 말합니다. SPOF는 시스템의 안정성과 가용성에 큰 영향을 미칠 수 있으며, 시스템 설계 시 피해야 하는 요소입니다. SPOF는 시스템 내의 특정 컴포넌트, 하드웨어, 네트워크, 소프트웨어 또는 인프라스트럭처에서 발생할 수 있습니다. 예를 들어, 데이터 센터에서 모든 네트워크 트래픽이 단일 라우터를 통과하거나, 웹 서버에서 단일 서버로 모든 요청을 처리하는 등의 경우가 SPOF의 예시입니다. SPOF의 문제는 해당 요소에 장애가 발생할 경우 전체 시스템이 영향을 받고 중단될 ..

Computer Science 2023. 7. 26. 18:00

SMOTENC :: oversampling with categorical variable

Data imbalanced 데이터 불균형 문제에서 Oversampling을 많이들 사용한다. 카테고리컬 변수를 ovesampling할 수 있는 방법은 없을까?! 있다...!!!! SMOTENC (numeric and categorical)!!! >> SMOTE-NC for dataset containing numerical and categorical features. 단, categorical feature만 가진 데이터에는 사용할 수 없다 -> 다른 numeric variable의 값을 이용해 categorical variable을 증식시키는 알고리즘이기 때문!!!! SMOTENC - SMOTE"는 Synthetic Minority Over-sampling Technique의 약자이며, - "NC"..

Statistical Learning 2023. 7. 25. 13:00

쿠버네티스(Kubernetes)

쿠버네티스(Kubernetes)는 컨테이너화된 애플리케이션을 자동으로 배포, 확장, 관리하는 오픈소스 플랫폼입니다. 이 를 통해 애플리케이션의 개발과 배포가 훨씬 효율적이고 안정적으로 이루어질 수 있습니다. 쿠버네티스는 여러 대의 서버(호스트)를 클러스터라는 그룹으로 구성하고, 이 클러스터 내에서 동작하는 컨테이너화된 애플리케이션을 관리합니다. 각각의 서버는 워커 노드(Worker Node)라고 불리며, 이 노드들은 쿠버네티스 클러스터의 일부가 됩니다. 쿠버네티스의 핵심 개념 중 하나는 파드(Pod)입니다. 파드는 하나 이상의 컨테이너 그룹을 포함하며, 이 컨테이너들은 함께 동작하고 네트워크와 스토리지 리소스를 공유할 수 있습니다. 즉, 파드는 애플리케이션의 기본 실행 단위입니다. 쿠버네티스는 파드를 생..

DevOps 2023. 7. 24. 19:07

부동소수점(0.1+0.2 != 0.3 ???)

파이썬에서는 실수를 표현하는 방법으로 부동소수점을 쓴다. >> 간단히 말해 0.1이 진짜 0.1이 아니다. 0.1 + 0.2 # 0.30000000000000004 파이썬의 0.1은 실제로 아래와 같이 0.1이 아닌 0.1에 가까운 값을 나타낸다. 0.1000000000000000055511151231257827021181583404541015625 따라서 0.1+02 = 0.3이 아니게 됨...(실제) 이렇기 때문에 계산할때 특히 금융데이터에서 유의해야함. 부동소수점 연산의 정확성 유지하기 부동소수점 연산에서 주의해야 할 몇 가지 일반적인 문제는 반올림 오차와 비교 연산의 부정확성 이를 방지하기 위해 파이썬에서는 Decimal 모듈을 제공 Decimal 모듈은 고정 소수점 연산을 수행하며, 정확한 결과..

Python 2023. 7. 17. 18:15

Prev 1 ··· 5 6 7 8 9 10 11 ··· 53 Next

목록전체 글 (424)

데이터과학 삼학년

티스토리툴바