article thumbnail image
Published 2021. 3. 15. 14:05

한 반을 그룹할 때 무엇을 기준으로 그룹화 할 지, 많은 변수와 값에 따라서 클래스를 만들고 그룹을 만들 수 있다.

 

새로운 instance 데이터가 어떤 클래스에 속하는지 아는 것이 학습에서 가장 중요하다.

 

가장 fundamental한 아이디어는 

How can we segment the population with respect to something that we would like to predict or estimates? [Supervised Segmentation]

이 질문이다.

 

 

고객들이 계약이 만료됐을 때 계속 있을 건지 다른 통신사로 옮길건지 그런 문제를 다루는 것이 Turn Problem이라고 한다.

어떻게 하면 customer가 계속 있을지에 대한 문제에 대한 분석을 하는 문제이다.

 

다음과 같이 세개의 질문이 있다고 해보자

어떤 데이터를 사용할 것인지?

무슨 데이터를 사용할 것인지?

어떻게 사용할 것인지?

 

떠날 사람은 새로 오는 사람들과 스위칭 해도 상관이 없다.

따라서 잘 골라서 회사의 이득을 올리는 것이 중요하다.

 

그러면 어떤 데이터를 고를 것인가?

어떤 기술을 사용해서 어떻게 분석해서 어떤 캠페인을 해야할 것인가?


Model

모델이라는 것은 Real world를 단순화 시킨 표현이다.

중요한 것은 purpose다. 목적이 있다는 것이다.

목적이 없이 모델링 하는 것은 의미가 없다.

 

모델링 안에는 객체가 들어있고 관계성을 정의해야한다.

서로 connect가 되어 있다는 것이다.

서로의 정보를 주고받고 관계성이 성립되기 때문에 서로간의 언어를 정의하게 된다.

 

모델링 자체에서는 값어치를 바로 알 수 없다.

소프트웨어를 디자인 하고 분석하고 구현하는 관계성과 process를 

 

Predictive Model

모델은 분석 가능한, 예측 가능한 모델이기 때문에 Predictive Model이라고 한다.

기계학습 알고리즘을 이용하여 Predictive Model을 만드는 것이 목표이다.

 

Predictive Model에는 Target이 있다.

알지 못하는 instance가 들어왔을 때 이 값이 무엇이 될지 예측하는 것이 Output이 된다.

 

Prediction

Trimming data를 바탕으로 만들어지는 모델

 

Instance / example

데이터이다.

데이터는 굉장히 많은 변수로 구성된다.

Model induction

많은 데이터로부터 굉장히 디테일한 것은 생략하고 목적으로 하는, key로만 만드는 모델을 만드는 것을 Model induction이라고 한다.

 

일반화라는 것은 구체적인 것으로부터 범용적으로 적용 가능한 룰이다.

룰이 일반화되고 광범위되어지면 많은 케이스를 커버할 수 있는 힘이 생긴다.

우리가 원하지 않은 결과를 포함할 수도 있게 된다.

 

데이터로부터 추상적인 hypothesis를 만들어 나가는 것이다.

 

Model induction에서 주의할 것은 나온 결과가 틀릴 수도 있다는 것이다.

Training data

학습할 때 사용되는 데이터이다.

Testing data 는 검증할 때 사용되는 데이터이다.

학습 데이터와 학습 시키지 않은 데이터를 잘 구분할 수 있다면 Overfitting 문제를 잘 해결할 수 있다.

 

 

Atrribute는 변수를 나타낸다.

빚을 갚을 능력이 있는지를 예측하기 위해 이러한 인스턴스가 주어진다.

하나의 row가 인스턴스이다.

 

타겟은 비지니스 캠페인의 따라서 바꿀 수 있다.

즉 Traget attribute는 2개, 3개의 값을 가질 수 있다.


간단하고 중요한 것들만 포함시켜서 모델을 만들어나간다.

 

확률적으로 이 데이터가 어떤 클래스에 속하는 지에 대해서 알아가기 때문에 class-probability estimation model 이라고도 불린다.

고려하지 못한 변수들 간의 관계도 나중에 결과에 영향을 미칠 수 있으므로 확률적인 모델로서 만든다.


Feature data type은 여러가지 종류가 있다.

순서를 고려한 집합이 있고, 순서에 상관없이 element만 고려한 집합도 있다.

 

Categorical 은 예, 아니오로만 구성된 데이터도 있다.


수십만개 수백만개의 attribute를 가질 수 있다.

 

목표를 가지고 변수를 뽑아내고 정리해서 input으로 주게되면 학습을 잘할 수 있다.

중요한, 중요하지 않는 디테일을 뽑아내는 것이 중요하다.


Data Mining Task

 

Classification

홍보를 통해서 전략적으로 좋은 마케팅을 썼을 때 얼마나 고객들이 성공적으로 호응을 해서 회사의 서비스를 바꾸지 않고 남아있을까?

 

Regression

얼마나 그 서비스를 사용할 것인지 value를 찾는 것

 

Similarity Matching

비슷한 고객들을 모았을 때 이득을 가져올 수 있는가?

 

Clustering

비슷한 고객들끼리 묶기

 

Co-occurrence Grouping

이런 상품을 본 고객은 이것도 같이 사더라

 

Profiling

고객의 행동 습관을 예측

 

Data Reduction

Feture set만 뽑아내기

 

Link Prediction

이미 존재하지 않은 링크를 연결시키기

 

Causal Modeling

만약에 어떤 조건을 만족시켰을 때, 어떠한 결과가 있더라

 

 

문제의 이해와 데이터의 특성으로 알아낼 수 있는 결과가 달라지므로 어떠어떠한 것들이 있는지 아는 것이 중요하다.

'💡 AI > ML' 카테고리의 다른 글

ML W4-1-2 Fitting a Model to Data  (0) 2021.03.22
ML W4-1-1 Supervised Segmentation  (0) 2021.03.22
ML W3-2-2 - Supervised Segmentation  (0) 2021.03.18
ML W3-2-1 Supervised Segmentation  (0) 2021.03.18
ML W3-1-2 - Predictive Modeling  (0) 2021.03.15
복사했습니다!