
Why Is Overfitting Bad? (p.125)
Need for holdout evaluation
어떻게 두개를 나눌 수 있을까? 어떻게 Classifiy 할 수 있을까?
단순하게 나눌려고 하기 때문에, memorizing 하려고 하기 때문에 오버피팅이 생기는 것이다.
Over-fitting
점점 노드가 많아질수록 변수가 많아지고 specific한 값들이 나타나면서 오버피팅이 된다.
새로운 데이터들을 기억하게 되면서 오버피팅이 된다.
그러면 어떻게 퍼포먼스를 올릴 수 있을까? -> Holdout
Holdout validation
주어진 데이터가 전부이다.
아무 데이터나 합치면 안된다. 데이터의 소스가 다르기 때문이다.
Ref:
m.blog.naver.com/ckdgus1433/221599517834
교차 검증(cross validation)
이번 시간에는 머신러닝에서 평가에 필수적으로 사용되는 교차 검증(cross validation)에 대해서 알아보자....
blog.naver.com
Cross-Validation (교차 검증)
Cross validation : Holdout을 통계적으로 반복해서
From Holdout Evaluation to Cross-Validation
Let’s focus back in on actually mining the data..
MegaTelCo (The Churn Dataset Revisited)
Logistic regression과 Ten-fold Classification 이다.
Generalization Performance
Learning Curves (for the churn problem)
얼마만큼 우리가 만든 모델이 generalize 할까?
처음에 가파른 이유 : 적적한 regularity를 찾기위해 속도가 올라간다.
소진되면 완만해진다.
Logistic Regression vs Tree Induction
트리가 더 flexible 하다.
Learning curves vs Fitting graphs
learning curve : 테스팅 데이터에 대한 generalization performance를 training 데이터의 양에 따라서 나타내준 것
fitting graph : 모델의 complexity
Avoiding Over-fitting w/ Tree Induction
트리의 complexity는 노드의 개수이다.
그래서 어느정도 복잡해지면 노드의 개수를 늘리지 말아야한다.
Post-pruning : 모든 변수로 트리를 만들고 분석한 후 가지치기 한다.
리프노드의 데이터 수가 중요하다.
과연 그 데이터가 나타내는 중요도가 큰가?
Minimum-instance stopping criterion : 어느 정도는 가지치기 해도 된다, 안해도 된다.
Pruning 할 때 Accuracy를 떨어뜨리는지 봐야 한다.
Accuracy가 떨어지지 않는, 변동을 주지 않는다면 가지치기를 하고 그렇지 않으면 하지 않는다.
Regularization
Nested Cross-Validation
'💡 AI > ML' 카테고리의 다른 글
미니 프로젝트 (0) | 2021.05.13 |
---|---|
꼭 알아야할 ML 용어 (0) | 2021.05.09 |
ML W5-2 Overfitting and its Avoidance (0) | 2021.04.01 |
ML W5-1 Fitting a Model to Data [OO] (0) | 2021.03.29 |
ML W4-1-2 Fitting a Model to Data (0) | 2021.03.22 |