일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- tensorflow text
- GenericGBQException
- API
- UDF
- login crawling
- integrated gradient
- flask
- TensorFlow
- hadoop
- API Gateway
- 상관관계
- youtube data
- 유튜브 API
- Airflow
- requests
- grad-cam
- Retry
- GCP
- airflow subdag
- top_k
- 공분산
- subdag
- spark udf
- BigQuery
- XAI
- chatGPT
- session 유지
- gather_nd
- Counterfactual Explanations
- correlation
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년
스무딩(smoothing)은 데이터의 노이즈를 완화하거나 데이터의 경향성을 부드럽게 만들기 위해 사용되는 중요한 기법 데이터 과학에서 주로 사용되는 세 가지 스무딩 기법인 이동평균, 커널 밀도 추정, 그리고 로우 통계에 사용 스무딩(smoothing) 기법 이동평균 (Moving Average) 이동평균은 시계열 데이터의 노이즈를 완화하고 데이터의 경향성을 부드럽게 만들기 위해 사용되는 기법입니다. 이동평균은 연속된 일정한 길이의 구간을 선택하고 해당 구간 내 데이터 포인트의 평균값을 계산하는 방식으로 동작합니다. 이를 통해 데이터의 불규칙한 변동을 완화하고 전반적인 추세를 뚜렷하게 보여줄 수 있습니다. 커널 밀도 추정 (Kernel Density Estimation) : 커널 밀도 추정은 데이터의 분..
SOLID Principles : improve Object-Oriented Design in Python SOLID 원칙 - oop ?! → 간단히 말해 pyhton의 class 기능 → 붕어빵 틀을 만들어 여러 붕어빵을 찍어내는 것과 같은 것 - 코드를 보다 효율적이고 유지보수하기 쉬우며, 효과적으로 작성하고자 만든 어떤 원칙이 있는데…대표적인 것이 SOLID 원칙 - SOLID 원칙별로 한글자씩 따서 만든 것으로 생각한 것 처럼 총 5가지 원칙이 있음 S**ingle-responsibility principle (SRP) O**pen–closed principle (OCP) L**iskov substitution principle (LSP) I**nterface segregation principl..
CatBoost는 카테고리 변수를 별도 처리하지 않아도 지정만 해주면(indices 등) 자동으로 encoding처리를 해준다. 그렇다면 CatBoost에서 사용하는 카테고리 변수를 인코딩 방법은 무엇일까?! 주요 용어 * TargetSum: Sum of the target value for that particular categorical feature in the whole dataset. - encoding 변환시키고자 하는 카테고리 변수에 할당된 타겟값의 합 * Prior: (sum of target values in the whole dataset)/ ( total number of observations (i.e. rows) in the dataset) - 전체 데이터셋의 타겟(y)값 총 합 ..
Auto-sklearn - 모델 선택과 하이퍼파라미터 조정을 포함한 과정은 많은 시간과 노력을 요구됨 - 이러한 어려움을 극복하기 위해 Auto-sklearn라는 자동화된 머신러닝 도구가 Auto-sklearn - scikit-learn 라이브러리를 기반으로한 자동화 도구로, 최적의 모델을 찾고 최상의 성능을 달성하는 머신러닝 프로세스를 간소화 Auto-sklearn의 작동 원리 - Auto-sklearn은 베이지안 최적화와 메타 모델링을 통해 머신러닝 모델의 선택과 하이퍼파라미터 조정을 자동화 - 베이지안 최적화는 여러 알고리즘과 하이퍼파라미터 조합을 시도하고, 모델의 성능을 평가하여 최적의 조합을 찾음 - 메타 모델링은 이전 실험 결과를 사용하여 모델 선택 및 하이퍼파라미터 조정을 가속화 Auto-s..

샘플링을 하다 보면 단순한 랜덤샘플링이 아니라 label별로 일정한 비율로 샘플링하기를 원할때가 있다. 이를 층화샘플링이라고 하는데, pandas dataframe에서 이것을 하는 방법이 있다...(label 컬럼으로 groupby를 하는 것!!!) 랜덤 샘플링 random_sample = df.sample(frac=0.20) ) random_sample.head() 층화 샘플링 - label별 20%로씩 샘플링 stratified_sample = df.groupby('').apply( lambda x: x.sample(frac=0.20) ) stratified_sample.head()

git flow 전략 - 브랜치 전략이란 여러 개발자가 하나의 저장소를 사용하는 환경에서 보다 효과적으로 활용하기 위한 방법 브랜치 종류 master - 라이브에서 작동하는 브랜치(main) develop - 다음 출시 버전을 대비하여 개발중인 브랜치(main) feature (topic) - 개발 브랜치로 develop 브랜치에 병합 release - 다음 버전 출시를 준비하는 브랜치 - develop 브랜치를 release 브랜치로 옮긴 후 QA, 테스트를 진행하고 master 브랜치에 병합 hotfix - master 브랜치에서 발생한 버그 수정 브랜치 커밋메시지 - 개발진행하면서 남기는 일종의 로그 → 커밋메시지는 최대한 명확하고 자세하게 작성!! - 커밋메시지는 아래와 같이 중요내용을 남기고 그..
Spark DataFrame vs Pandas DataFrame Spark DataFrame pandas DataFrame 구성 - Java Object로 만들어진 RDD 기반 - numpy의 ndarray를 기반 데이터 처리 방식 - 분산 데이터 처리를 위해 설계 - 대용량 데이터를 처리하고 병렬로 연산을 수행할 수 있음 - Spark는 클러스터에서 실행되며, 데이터를 여러 노드에 분산시키고 병렬로 처리하여 빠른 처리 속도를 제공 - 단일 머신에서 작동하는 메모리 기반의 데이터 구조 - 주로 작은 크기의 데이터셋을 처리하는 데 사용 - pandas는 메모리 내에서 데이터를 로드하고 연산을 수행하므로, 단일 머신의 자원을 활용하여 처리 속도를 높임 확장성 - Spark은 클러스터 컴퓨팅을 지원하므로, 대..
ODS(Operational Data Store) - ODS는 데이터 웨어하우스(DW) 아키텍처의 일부로 사용되는 중간 단계 저장소 - ODS는 일반적으로 트랜잭션 처리 시스템으로부터 데이터를 추출하고, 데이터 품질 검증, 데이터 변환 및 통합 작업을 수행 - ODS는 비즈니스 규칙 및 프로세스에 따라 데이터를 가공하며, 다른 시스템과의 데이터 통합을 용이하게 함 - ODS는 실시간 데이터 갱신을 지원하고, 다른 시스템과의 인터페이스를 통해 데이터를 주고받을 수 있음 팩트 테이블(Fact Table) - 팩트 테이블은 데이터 웨어하우스(DW)에서 중심이 되는 테이블로, 비즈니스 프로세스에서 발생한 사실과 이벤트에 대한 수치 데이터를 포함 - 팩트 테이블은 주로 측정 항목(예: 매출액, 주문량, 재고량)..