일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- session 유지
- API Gateway
- Counterfactual Explanations
- API
- TensorFlow
- GCP
- 공분산
- 상관관계
- GenericGBQException
- chatGPT
- grad-cam
- gather_nd
- flask
- integrated gradient
- requests
- spark udf
- hadoop
- Airflow
- correlation
- Retry
- youtube data
- UDF
- subdag
- top_k
- 유튜브 API
- BigQuery
- XAI
- tensorflow text
- airflow subdag
- login crawling
- Today
- Total
데이터과학 삼학년
smoothing 기법 본문
스무딩(smoothing)은 데이터의 노이즈를 완화하거나 데이터의 경향성을 부드럽게 만들기 위해 사용되는 중요한 기법
데이터 과학에서 주로 사용되는 세 가지 스무딩 기법인 이동평균, 커널 밀도 추정, 그리고 로우 통계에 사용
스무딩(smoothing) 기법
이동평균 (Moving Average)
이동평균은 시계열 데이터의 노이즈를 완화하고 데이터의 경향성을 부드럽게 만들기 위해 사용되는 기법입니다. 이동평균은 연속된 일정한 길이의 구간을 선택하고 해당 구간 내 데이터 포인트의 평균값을 계산하는 방식으로 동작합니다. 이를 통해 데이터의 불규칙한 변동을 완화하고 전반적인 추세를 뚜렷하게 보여줄 수 있습니다.
커널 밀도 추정 (Kernel Density Estimation)
: 커널 밀도 추정은 데이터의 분포를 부드럽게 만들기 위해 사용되는 기법입니다. 주어진 데이터 포인트에 대해 커널 함수를 적용하고, 해당 커널 함수를 중심으로 데이터의 가중치를 계산합니다. 이를 통해 데이터의 분포를 부드럽게 근사화하고 경향성을 더 잘 파악할 수 있습니다. 커널 함수는 일반적으로 가우시안 분포를 사용하며, 데이터 포인트와 커널 함수 사이의 거리에 따라 가중치를 부여합니다.
*커널함수(kernel function)에 대한 이해가 필요한데 수학적으로 커널함수는 원점을 중심으로 좌우 대칭이면서 적분값이 1
인 non-negative 함수로 정의되며 가우시언(Gaussian), Epanechnikov, uniform 함수 등이 대표적인 커널 함수들이다.
로우 통계 (Lowess; locally-weighted scatterplot smoother)
: 로우 통계는 지역적으로 가중치를 부여하여 데이터의 추세를 추정하는 스무딩 기법입니다. 각 데이터 포인트 주변의 이웃 데이터 포인트들에 가중치를 할당하여 해당 데이터 포인트의 영향을 결정합니다. 이를 통해 데이터의 지역적인 변동성을 캡처하고 전역적인 추세와 더 잘 일치할 수 있습니다. 로우 통계는 주로 산점도 그래프 상에서 사용되며, 데이터 포인트와 가중치를 이용해 부드러운 곡선을 그려 데이터의 추세를 시각적으로 파악할 수 있습니다.
지수 평활법 (Exponential Smoothing)
지수 평활법은 가장 최근의 데이터에 더 많은 가중치를 부여하고 과거의 데이터에 점차적으로 감소하는 가중치를 부여하여 스무딩을 수행합니다. 지수 평활법은 이동평균과 달리 모든 과거 데이터를 고려하지 않고 최신 데이터에 더 큰 영향을 받습니다. 이를 통해 빠르게 변화하는 추세를 감지하고 예측에 활용할 수 있습니다.
퓨리에 변환 (Fourier Transform)
: 퓨리에 변환은 주파수 영역에서 데이터를 분석하는 기법으로, 시간 영역의 데이터를 주파수 성분으로 변환하여 스무딩을 수행합니다. 퓨리에 변환은 데이터의 주기성과 주파수 성분을 파악하는 데에 유용하며, 노이즈를 제거하고 데이터의 추세를 부드럽게 만들 수 있습니다.
로브스터 스무딩 (Robust Smoothing)
: 로브스터 스무딩은 이상치에 강건한 스무딩을 수행하는 기법입니다. 일반적인 스무딩 기법은 이상치에 민감하게 반응할 수 있으나, 로브스터 스무딩은 이상치에 영향을 덜 받고 부드러운 추세를 유지할 수 있습니다.
Savitzky-Golay 필터
: Savitzky-Golay 필터는 다항식 회귀를 이용하여 스무딩을 수행하는 기법입니다. 주어진 윈도우 내의 데이터를 다항식으로 근사화하고, 해당 다항식의 계수를 조정하여 데이터의 추세를 부드럽게 만듭니다. Savitzky-Golay 필터는 데이터의 노이즈를 제거하고 정확한 추세를 추정하는 데에 효과적입니다.
지역 회귀 (Locally Weighted Regression)
: 지역 회귀는 로우 통계와 유사한 개념으로, 데이터 포인트 주변의 이웃 데이터 포인트를 고려하여 가중치를 부여하고 회귀 모델을 적합시킵니다. 이를 통해 지역적인 데이터의 패턴과 추세를 더 정확하게 모델링할 수 있습니다. 지역 회귀는 스무딩을 통해 데이터의 추세를 부드럽게 만들면서도 이상치에 민감하지 않은 강건한 결과를 얻을 수 있습니다.
지수 가중 이동평균 (Exponentially Weighted Moving Average, EWMA)
: 지수 가중 이동평균은 이동평균에 지수 가중치를 부여하는 방식으로 데이터를 스무딩하는 기법입니다. 최신 데이터에 가중치를 더 많이 부여하고 과거 데이터에는 점차적으로 감소하는 가중치를 부여하여 데이터의 추세를 파악합니다. EWMA는 최신 정보에 더 민감하게 반응하여 빠르게 변화하는 추세를 잘 파악할 수 있습니다.
Kalman 필터 (Kalman Filter)
: Kalman 필터는 동적 시스템의 상태를 추정하는데 사용되는 재귀적인 필터링 기법입니다. Kalman 필터는 시스템의 상태와 관측값 간의 관계를 모델링하고, 이를 이용하여 최적의 상태 추정을 수행합니다. 이를 통해 시스템의 추세를 부드럽게 만들고 노이즈를 제거할 수 있습니다. Kalman 필터는 주로 시계열 데이터의 스무딩이나 예측에 사용됩니다.
제곱근 스무딩 (Square Root Smoothing)
: 제곱근 스무딩은 시계열 데이터의 변동성을 완화하기 위해 사용되는 방법입니다. 제곱근을 취한 후 이동평균을 계산하고, 다시 제곱근의 역변환을 수행하여 부드러운 데이터를 얻습니다. 이를 통해 시계열 데이터의 추세를 부드럽게 만들 수 있습니다.
중앙값 스무딩 (Median Smoothing)
: 중앙값 스무딩은 이동 중앙값을 사용하여 데이터의 스무딩을 수행하는 방법입니다. 이동 중앙값은 이동 창 내의 중앙값을 계산하여 데이터를 부드럽게 만듭니다. 중앙값 스무딩은 이상치에 강건하며, 이상치의 영향을 최소화하고 데이터의 추세를 유지하는 데에 효과적입니다.
스무딩 기법은 데이터 과학에서 다양한 분야에서 활용되며, 데이터의 노이즈를 제거하고 경향성을 부드럽게 만들어줍니다. 이동평균, 커널 밀도 추정, 로우 통계는 각각 다른 방법을 사용하며 데이터의 특성과 목적에 따라 선택됩니다. 데이터를 분석하거나 시각화할 때 스무딩 기법을 고려해 보는 것은 중요한 전략입니다. 적절한 스무딩은 데이터의 추세와 패턴을 더 잘 이해할 수 있게 도와주며, 정확한 분석과 예측을 가능하게 합니다.
'Statistical Learning' 카테고리의 다른 글
범주형 변수와 연속형 변수간 상관관계(categorical numerical correlation) (0) | 2023.09.25 |
---|---|
SMOTENC :: oversampling with categorical variable (0) | 2023.07.25 |
pandas stratified sampling (층화표본) (0) | 2023.06.08 |
구조방정식(SEM ; structural equation modeling) 파이썬 코드 (0) | 2023.03.21 |
Simpson's paradox (심슨의 역설) (0) | 2023.03.04 |