데이터과학 삼학년

Ch1. The Machine Learning Pipeline 본문

Feature Engineering

Ch1. The Machine Learning Pipeline

Dan-k 2020. 3. 27. 19:38
반응형

머신러닝을 이용한 분석방법의 파이프라인에 대해 간략하게 알아보자.

 

Data

실제 세계를 반영할 수 있는 데이터를 가지고 있다.

데이터를 통해 우리는 전체적인 그림을 그릴수 있다.

그러나 수집된 데이터는 종류가 매우 다양하고 noise와 잘못 수집된 데이터들이 복잡적으로 존재하고 있어, 데이터를 통해 현 세계를 제대로 이해하기 위해서는 처리가 필수적이다.

 

Tasks

Task는 우리가 데이터를 모으고, 분석하는 이유를 말한다.

예를 들어 어떻게 더 나은 삶을 즐길수 있는지, 고객의 구매패턴변화를 어떻게 찾을 지, 또 그원인은 무엇인지 찾는 일련의 목적을 말한다.

우리는 Data를 통해서 질문에 대한 Answers을 얻을 수 있다.

Models

데이터를 통해 실세곌르 이해하는다는 것이니 복잡한 퍼즐같은 데이터에서 인사이트를 얻는 것을 의미한다.

이러한 인사이트를 얻는 방법이 수리적인 모델을 통해 데이터내 패턴을 알아내는 것이다.

하지만 데이터의 패턴을 알기위해 모델을 사용하는데 잘못된 데이터가 들어가면 모델은 당연히 잘못된 결과를 뱉어내게 된다. 일명 garbage in garbage out

모델은 데이터를 충분히 탐색한 이후에 다양한 모델에 데이터를 적용함으로써 최적의 모델을 도출해야한다.

 

Features

Feature는 데이터의 수리적인 대표성을 나타내는 것이라고 할 수있다. 모델에 들어갈 데이터의 형태를 정해주는 것도 이 과정에 포함된다.

특히 모델마다 적절한 feature 타입이 필요하다.

데이터를 가공하여 모델에 들어갈 수 있는 feature를 만들어내는 과정을 Feature Engineering이라고 한다.

feature의 수와 형태를 정하는 모든 일련의 과정이 여기에 포함된다.

 

Model Evaluation

Feature와 Model이 나타내는 퍼포먼스를 평가하는 단계이다.

모델 평가를 지속하면서 feature를 계속해서 바꿔나갈 수 있으며, 모델의 변경또한 검토해 볼 수 있다.

 

 

 

출처 : Feature Engineering for Machine Learning
728x90
반응형
LIST
Comments