Published 2021. 4. 5. 13:10

ML W6-1 Overfitting and Its Avoidance

💡 AI/ML

Why Is Overfitting Bad? (p.125)

Need for holdout evaluation

어떻게 두개를 나눌 수 있을까? 어떻게 Classifiy 할 수 있을까?

단순하게 나눌려고 하기 때문에, memorizing 하려고 하기 때문에 오버피팅이 생기는 것이다.

Over-fitting

점점 노드가 많아질수록 변수가 많아지고 specific한 값들이 나타나면서 오버피팅이 된다.

새로운 데이터들을 기억하게 되면서 오버피팅이 된다.

그러면 어떻게 퍼포먼스를 올릴 수 있을까? -> Holdout

Holdout validation

주어진 데이터가 전부이다.

아무 데이터나 합치면 안된다. 데이터의 소스가 다르기 때문이다.

Ref:

m.blog.naver.com/ckdgus1433/221599517834

교차 검증(cross validation)

이번 시간에는 머신러닝에서 평가에 필수적으로 사용되는 교차 검증(cross validation)에 대해서 알아보자....

blog.naver.com

Cross-Validation (교차 검증)

Cross validation : Holdout을 통계적으로 반복해서

From Holdout Evaluation to Cross-Validation

Let’s focus back in on actually mining the data..

MegaTelCo (The Churn Dataset Revisited)

Logistic regression과 Ten-fold Classification 이다.

Generalization Performance

Learning Curves (for the churn problem)

얼마만큼 우리가 만든 모델이 generalize 할까?

처음에 가파른 이유 : 적적한 regularity를 찾기위해 속도가 올라간다.

소진되면 완만해진다.

Logistic Regression vs Tree Induction

트리가 더 flexible 하다.

Learning curves vs Fitting graphs

learning curve : 테스팅 데이터에 대한 generalization performance를 training 데이터의 양에 따라서 나타내준 것

fitting graph : 모델의 complexity

Avoiding Over-fitting w/ Tree Induction

트리의 complexity는 노드의 개수이다.

그래서 어느정도 복잡해지면 노드의 개수를 늘리지 말아야한다.

Post-pruning : 모든 변수로 트리를 만들고 분석한 후 가지치기 한다.

리프노드의 데이터 수가 중요하다.

과연 그 데이터가 나타내는 중요도가 큰가?

Minimum-instance stopping criterion : 어느 정도는 가지치기 해도 된다, 안해도 된다.

Pruning 할 때 Accuracy를 떨어뜨리는지 봐야 한다.

Accuracy가 떨어지지 않는, 변동을 주지 않는다면 가지치기를 하고 그렇지 않으면 하지 않는다.

Regularization

Nested Cross-Validation

'💡 AI > ML' 카테고리의 다른 글

미니 프로젝트 (0)	2021.05.13
꼭 알아야할 ML 용어 (0)	2021.05.09
ML W5-2 Overfitting and its Avoidance (0)	2021.04.01
ML W5-1 Fitting a Model to Data [OO] (0)	2021.03.29
ML W4-1-2 Fitting a Model to Data (0)	2021.03.22