Attribute Selection


Example:
Attribution Selection with Information Gain

 

 

 

엔트로피를 계산하고

feature selection을 통해서 가지를 만들어 나간다.

가지를 만들어 나가는 기준이 되는 attribute의 엔트로피를 계산한다.

 

현재 엔트로피가 96%로 굉장히 높고

우리의 목표는 엔트로피를 낮춰서 purity를 높이는 것이다.

 

GILL-COLOR : 주름

이 슬라이드는 과정을 보여주는 슬라이드이다.

 

우리가 찾아야 되는 것은 엔트로피가 작고 데이터셋의 양도 많은 것이다.

 

odor(냄새)로 segmentation을 만들었다.

냄새가 없는 버섯들이 상당히 있는 것을 볼 수 있다. : n

냄새가 있는 버섯들은 엔트로피가 굉장히 낮다.

 

odor는 의미있는 attribute라고 볼 수 있다.


Multivariate Supervised Segmentation

odor처럼 하나의 변수 가지고 안된다.

여러개의 변수를 넣고 종합적으로 결론낼 수 있어야 한다.


Tree-Structured Models

 

의사결정 트리를 만들어 잔가지를 쳐가면서 classification을 하는 방법이 있다.

 

internal node의 변수를 사용하고

그 조건들과 연결시켜

마지막 leaf node에 있는 데이터셋의 특성을

변수들로 설명가능하다.

 

직업이 있는지 없는지,

balance 확인

age 확인

 

이러한 예측 모델을 잘 만들면 의사결정시스템을 만들 수 있다.


Tree-Structured Models: “Rules”

두 부모노드는 자식노드를 공유하지 않고

싸이클을 돌지 않으며

가지는 아래를 향하고

리프 노드는 클래스를 결정할 수 있는 specific한 데이터셋을 나타낸다.


Tree Induction

stop condition을 주어서 멈출 수 있다.

엔트로피가 아주 낮아져서 pure해 지면 멈출 수 있다.

더이상 적용할 변수가 없을 때까지 할 수 있다.

over fitting의 위험성이 있을 때 멈출 수 있다 = 너무 작은 데이터, 굉장히 specific한 데이터 -> 구별, 차별화 시킬 수 없게 된다.

 


Why trees?

simple 하다.

이해하기 쉽고, 구현하기 쉽고, 사용하기 쉽고, 연산적으로 적은 비용이다.

거의 모든 Data mining 패키지에 들어가 있다.

 

'💡 AI > ML' 카테고리의 다른 글

ML W4-1-2 Fitting a Model to Data  (0) 2021.03.22
ML W4-1-1 Supervised Segmentation  (0) 2021.03.22
ML W3-2-1 Supervised Segmentation  (0) 2021.03.18
ML W3-1-2 - Predictive Modeling  (0) 2021.03.15
ML W3-1-1 - Predictive Modeling  (0) 2021.03.15
복사했습니다!