article thumbnail image
Published 2021. 3. 18. 11:21

Supervised Segmentation

의미있는 attribute 

target과 직접적, 간접적으로 correlate를 가지는 변수를 잘 활용하면 정확한 Classification이 가능하다.


지도학습을 통한 데이터셋의 학습은 target variable과 관계를 갖는 중요한 정보를 찾는 것이다.

얼마만큼 informative 하고, 중요한 정보가 들어있느냐?

 

고객들을 찾아내고 솎아내고, 차별화 해야한다.

전문직에 있는 사람인지, 나이, 거주지, 수입, 받아온 서비스에 얼만큼 만족했는지에 대한 변수를 알아야 한다.

 

과거의 데이터를 보니 이러한 관계를 갖는 사람을 보면 떠난다, 떠나지 않는다.

특정 지역에 사는 사람은 꼭 떠나더라, 등 특별한 변수가 존재할 수 있다.

아니면 그런사람과 그렇지 않은 사람이 혼합되어 있을 수 있다.

 

Pure 하다 : 특성이 있다.

Pure 하지 않다, Heterogeneous 하다 : 혼합되어 있다, 분별성이 없다.


Selecting Informative Attributes

다양한 고객들을

머리가 둥그런 사람(7), 네모난 사람(1)

머리가 노란색인 사람(6), 파란색인 사람(2)

몸이 빨간, 파랑, 보라인 사람

완벽히 두 그룹으로 나누긴 힘들다.

 

툴을 쓰기만 하면 안된다.

여러 측면에서 고려하여 어떤 알고리즘을 통해서 분석할지 알아야 한다.


The Problem with the attributes

1. 변수를 기준으로 그룹을 완벽하게 나누기는 쉽지 않다.

2. 하나의 변수를 가지고 일반화하기 쉽지 않다. specific 한 것은 overfitting 할 가능성이 크다.

3. 모든 attribute가 binary하지는 않다. 다양한 값이 존재한다.

4. 어떤 변수들은 numerical(continuous, integer)한 값을 갖는다.

 

target과 target이 아닌 instance에서 특징을 잡아내는 것이 굉장히 중요하다.


Selecting Informative Attributes

선택한 변수들이 얼마만큼 데이터들을 차별화 시켜서 Segment를 만드느냐?

이것은 target variable과 관련성이 높아야 한다.

 

Information gain

purity measure에 근거한다.

이것은 entropy 라고도 한다.

 

양쪽은 pure하다. 가운대로 갈수록 엔트로피가 높아진다.

+와 -가 점점 섞여가면서 엔트로피가 가장 높아진다.

엔트로피가 작을수록 순수하다.

우리는 엔트로피가 낮은 것을 추구한다.

이런 엔트로피(혼잡도)가 낮은 Segmentation을 만드는 것이 목표이다.

 

과연 어떤 attribute를 선택해야 상태가 변할까?

변화의 폭이 클수록 좋다.

어떤 변수가 영향력이 있는가?

 

이것을 총칭하는 것이 Information gain이다.


Information Gain

별을 별대로 동그라미는 동그라미대로 나누고 싶다.

어떤 변수로 나누어야 잘 나누어질까?

이것을 가능하게 하는 힘을 information gain라고 한다.

 

parent의 엔트로피를 개선해야 하고,

balance를 attribute로 하여 나눈다.

balance를 기준으로 measure of disorder(entropy)를 계산하고

entropy를 계산하고 얼마만큼 entropy가 pure해지는데 기여했느냐를 평가하는 것이 information gain이다.

 

IG = (Balance로 나눈)부모의 엔트로피 - (Balance로 나눈)자식의 엔트로피

그러면 Balance 변수의 영향력을 알 수 있게 된다.

 

부모노드의 엔트로피를 계산하였을 때 0.99가 나온다.

엔트로피는 1에 가까울수록 혼잡하다는 뜻이다.

즉, 분포가 반반으로 나누어져서 섞여있고, impure 하다는 것이다.

 

왼쪽 노드의 엔트로피는 0.39, 오른쪽 노드의 엔트로피는 0.79가 나온다.

부모 노드보다는 pure하다는 것을 알 수 있다.

 

 

그러면 balance라는 변수는 얼마만큼의 information gain을 가지고 그룹을 split 했느냐?

 

 

Balance 변수를 통해서 classify하고 Information gain을 계산했을 때 0.37이라는 값을 갖는다.

Residence 변수를 통해서 classify하고 Information gain을 계산했을 때는 0.13의 값을 갖는다.

Information gain이 더 클수록 더 잘 나눈다.

 

Balance 변수가 Residence 변수보다 훨씬 더 informative하고 더 잘 Classify 한다.

결국 두가지 변수를 통해서 balance 변수가 더 그룹을 잘 나눈다는 것을 알 수 있다.

 

'💡 AI > ML' 카테고리의 다른 글

ML W4-1-2 Fitting a Model to Data  (0) 2021.03.22
ML W4-1-1 Supervised Segmentation  (0) 2021.03.22
ML W3-2-2 - Supervised Segmentation  (0) 2021.03.18
ML W3-1-2 - Predictive Modeling  (0) 2021.03.15
ML W3-1-1 - Predictive Modeling  (0) 2021.03.15
복사했습니다!