Why Is Overfitting Bad? (p.125)

 

 


Need for holdout evaluation

어떻게 두개를 나눌 수 있을까? 어떻게 Classifiy 할 수 있을까?

단순하게 나눌려고 하기 때문에, memorizing 하려고 하기 때문에 오버피팅이 생기는 것이다.


Over-fitting

점점 노드가 많아질수록 변수가 많아지고 specific한 값들이 나타나면서 오버피팅이 된다.

새로운 데이터들을 기억하게 되면서 오버피팅이 된다.

 

그러면 어떻게 퍼포먼스를 올릴 수 있을까? -> Holdout


Holdout validation

주어진 데이터가 전부이다. 

아무 데이터나 합치면 안된다. 데이터의 소스가 다르기 때문이다.

 

Ref:

m.blog.naver.com/ckdgus1433/221599517834

 

교차 검증(cross validation)

이번 시간에는 머신러닝에서 평가에 필수적으로 사용되는 교차 검증(cross validation)에 대해서 알아보자....

blog.naver.com


Cross-Validation (교차 검증)

Cross validation : Holdout을 통계적으로 반복해서 

 

 


From Holdout Evaluation to Cross-Validation

 


Let’s focus back in on actually mining the data..

 


MegaTelCo (The Churn Dataset Revisited)

Logistic regression과 Ten-fold Classification 이다.


Generalization Performance


Learning Curves (for the churn problem)

얼마만큼 우리가 만든 모델이 generalize 할까?

 

처음에 가파른 이유 : 적적한 regularity를 찾기위해 속도가 올라간다.

소진되면 완만해진다.

 


Logistic Regression vs Tree Induction

트리가 더 flexible 하다.


Learning curves vs Fitting graphs

learning curve : 테스팅 데이터에 대한 generalization performance를 training 데이터의 양에 따라서 나타내준 것

fitting graph : 모델의 complexity


Avoiding Over-fitting w/ Tree Induction

트리의 complexity는 노드의 개수이다.

그래서 어느정도 복잡해지면 노드의 개수를 늘리지 말아야한다.

 

Post-pruning : 모든 변수로 트리를 만들고 분석한 후 가지치기 한다.

리프노드의 데이터 수가 중요하다.

과연 그 데이터가 나타내는 중요도가 큰가?

Minimum-instance stopping criterion : 어느 정도는 가지치기 해도 된다, 안해도 된다.

 

 

Pruning 할 때 Accuracy를 떨어뜨리는지 봐야 한다.

Accuracy가 떨어지지 않는, 변동을 주지 않는다면 가지치기를 하고 그렇지 않으면 하지 않는다.

 


Regularization

 


Nested Cross-Validation

 

 

'💡 AI > ML' 카테고리의 다른 글

미니 프로젝트  (0) 2021.05.13
꼭 알아야할 ML 용어  (0) 2021.05.09
ML W5-2 Overfitting and its Avoidance  (0) 2021.04.01
ML W5-1 Fitting a Model to Data [OO]  (0) 2021.03.29
ML W4-1-2 Fitting a Model to Data  (0) 2021.03.22
복사했습니다!