Attribute Selection
Example:
Attribution Selection with Information Gain
엔트로피를 계산하고
feature selection을 통해서 가지를 만들어 나간다.
가지를 만들어 나가는 기준이 되는 attribute의 엔트로피를 계산한다.
현재 엔트로피가 96%로 굉장히 높고
우리의 목표는 엔트로피를 낮춰서 purity를 높이는 것이다.
GILL-COLOR : 주름
이 슬라이드는 과정을 보여주는 슬라이드이다.
우리가 찾아야 되는 것은 엔트로피가 작고 데이터셋의 양도 많은 것이다.
odor(냄새)로 segmentation을 만들었다.
냄새가 없는 버섯들이 상당히 있는 것을 볼 수 있다. : n
냄새가 있는 버섯들은 엔트로피가 굉장히 낮다.
odor는 의미있는 attribute라고 볼 수 있다.
Multivariate Supervised Segmentation
odor처럼 하나의 변수 가지고 안된다.
여러개의 변수를 넣고 종합적으로 결론낼 수 있어야 한다.
Tree-Structured Models
의사결정 트리를 만들어 잔가지를 쳐가면서 classification을 하는 방법이 있다.
internal node의 변수를 사용하고
그 조건들과 연결시켜
마지막 leaf node에 있는 데이터셋의 특성을
변수들로 설명가능하다.
직업이 있는지 없는지,
balance 확인
age 확인
이러한 예측 모델을 잘 만들면 의사결정시스템을 만들 수 있다.
Tree-Structured Models: “Rules”
두 부모노드는 자식노드를 공유하지 않고
싸이클을 돌지 않으며
가지는 아래를 향하고
리프 노드는 클래스를 결정할 수 있는 specific한 데이터셋을 나타낸다.
Tree Induction
stop condition을 주어서 멈출 수 있다.
엔트로피가 아주 낮아져서 pure해 지면 멈출 수 있다.
더이상 적용할 변수가 없을 때까지 할 수 있다.
over fitting의 위험성이 있을 때 멈출 수 있다 = 너무 작은 데이터, 굉장히 specific한 데이터 -> 구별, 차별화 시킬 수 없게 된다.
Why trees?
simple 하다.
이해하기 쉽고, 구현하기 쉽고, 사용하기 쉽고, 연산적으로 적은 비용이다.
거의 모든 Data mining 패키지에 들어가 있다.
'💡 AI > ML' 카테고리의 다른 글
ML W4-1-2 Fitting a Model to Data (0) | 2021.03.22 |
---|---|
ML W4-1-1 Supervised Segmentation (0) | 2021.03.22 |
ML W3-2-1 Supervised Segmentation (0) | 2021.03.18 |
ML W3-1-2 - Predictive Modeling (0) | 2021.03.15 |
ML W3-1-1 - Predictive Modeling (0) | 2021.03.15 |