Published 2021. 3. 22. 17:40

ML W4-1-2 Fitting a Model to Data

💡 AI/ML

Discriminant Functions

차별화

Fitting a Model to Data

모델에 가장 적합한

Heat map of XYZ Hotels geographic brand affinity

Heat maps

Tree Complexity and Over-fitting

다양한 문제에 맞는 다양한 알고리즘 중 적절한 모델을 선택하는 것이 중요하다.

그렇지 않으면 overfitting하게 될 가능성이 크다.

Trees on Churn

Pruning (가지치기)

오버피팅 막고 노이즈도 줄일 수 있다.

Post pruning을 더 선호한다.

Post-pruning a tree

meaningful 한 변수만 남겨놓고 pruning 한다.

Decision Boundaries

Instance Space

Linear Classifier

Example of Classification Function

Age 의 weight = 1.0

Balance 의 weight = - 1.5

class(x) 라는 function을 만족시키는지 못 시키는지를 기준으로 구분한다.

Choosing the “best” line

어떤 라인을 그어야 더 많은 information을 살릴 수 있는가?

Objective Functions

Logistic regression is a misnomer

regression은 값을 예측

logistic regression는 어떤 클래스에 속할 확률까지 구해준다.

object function과 인스턴스의 거리를 측정한다.

Logistic regression (“sigmoid”) curve

f(x) = feature vector

인스턴스가 f(x)의 오른쪽에 떨어진다면 잘 예측한 것으로 결론낸다.

가운데에 떨어진다면 확률은 양쪽클래스에 속할지 반반

negative쪽에 떨어진다면 에러가 나거나 잘못 예측한 것이 된다.

Logistic Regression은 하나의 인스턴스가 그 클래스의 어떻게 속하는 지를 보여주되, 거기에 따른 정확한 probability를 objective function과 instance 사이의 거리를 측정함으로써 공간상에 나타내준다.

Classifying Flowers

두가지 방법으로 예측하기

둘중 뭐가 더 정확해 보이나?

SVM은 바운더리를 여유있게 해놓고 하나의 데이터를 구분하지 못했다.

반면에 Logistic regression은 클래스에 붙여서 바운더리를 만들었고 모두 정확히 구별하였다.

Linear Discriminant Function

Support Vector Machines (SVMs)

가장 대표적인 머신러닝 알고리즘 중 하나이다.

선을 중심으로 최대한(두꺼운)의 여백을 만들기

얼마만큼의 두께로 두개의 클래스를 나눌 수 있을까?

보수적인 벡터

여백의 선을 안쪽으로 넘었을 때는 패널티가 부과되고 Loss function을 작동시킨다.

여백의 선 바깥으로 멀어질수록 랭킹이 높아지고 가까울수록 랭킹이 낮아진다.

Support Vector Machines (SVMs)

Hinge loss : 잘못 판달 되었을 때 어떤 페널티를 주고 극복해 나갈 것인가

고려해야할 점

1. 복잡도가 높아질수록 일반화하기가 힘들다.

2. 새로운 차원을 도입할 때 기존의 데이터와 새로운 데이터의 상관관계가 부숴지지 않도록 유지하는 것이 중요하다.

Hinge Loss functions

hinge : 꺽쇠같은 부분

한두개의 샘플이 큰 영향을

'💡 AI > ML' 카테고리의 다른 글

ML W5-2 Overfitting and its Avoidance (0)	2021.04.01
ML W5-1 Fitting a Model to Data [OO] (0)	2021.03.29
ML W4-1-1 Supervised Segmentation (0)	2021.03.22
ML W3-2-2 - Supervised Segmentation (0)	2021.03.18
ML W3-2-1 Supervised Segmentation (0)	2021.03.18

ML W4-1-2 Fitting a Model to Data

Discriminant Functions

Fitting a Model to Data

Heat map of XYZ Hotels geographic brand affinity

Heat maps

Tree Complexity and Over-fitting

Trees on Churn

Pruning (가지치기)

Post-pruning a tree

Decision Boundaries

Instance Space

Linear Classifier

Example of Classification Function

Choosing the “best” line

Objective Functions

Logistic regression is a misnomer

Logistic regression (“sigmoid”) curve

Classifying Flowers

Linear Discriminant Function

Support Vector Machines (SVMs)

Support Vector Machines (SVMs)

Hinge Loss functions

'💡 AI > ML' 카테고리의 다른 글

티스토리툴바