Support Vector Machines (SVMs)

가장 대표적인 머신러닝 알고리즘 중 하나이다.

선을 중심으로 최대한(두꺼운)의 여백을 만들기

얼마만큼의 두께로 두개의 클래스를 나눌 수 있을까?

 

보수적인 벡터

 

여백의 선을 안쪽으로 넘었을 때는 패널티가 부과되고 Loss function을 작동시킨다.

여백의 선 바깥으로 멀어질수록 랭킹이 높아지고 가까울수록 랭킹이 낮아진다.


Support Vector Machines (SVMs)

Margin을 최대한 크게 하는 것이 SVM의 목표이다.

 

Hinge loss : 잘못 판달 되었을 때 어떤 페널티를 주고 극복해 나갈 것인가

 

고려해야할 점

1. 복잡도가 높아질수록 일반화하기가 힘들다.

2. 새로운 차원을 도입할 때 기존의 데이터와 새로운 데이터의 상관관계가 부숴지지 않도록 유지하는 것이 중요하다.


Hinge Loss functions

Loss function : 잘못 예측되었을 때 부과되는 벌칙

hinge : 꺽쇠같은 부분

 

negative한 것들이 positive 쪽에 떨어지면 패널티를 부과하야한다.

더 멀리 떨어질수록 더 큰 패널티가 부과된다.

 

zero-one loss : 잘된 것 0, 잘못 된 것 1 이런식으로 패널티를 부과하는 것


Loss functions

 


Ranking Instances and Probability Class Estimation

구체적으로 예측하기는 어렵지만 어느정도 기준으로 예측할 수는 있다.

 

오른쪽으로 갈수록 구체적인 증거가 뒷받침 되어야 한다.

 

Classification : 속한다, 안속한다 분류하기

Ranking : 줄세우기, 우선순위 매기기

Probability : 각각의 확률을 예측하기


Ranking : Examples

검색했을 때 상관성에 따른 Ranking


Class Probability Estimation : Examples


Logistic Regression

Linear regression의 바운더리는 -무한대부터 +무한대이지만

확률은 0부터 1까지이다.

 

Odds는 확률에 대한 비를 나타낸다.

확률을 Log-odds 로 나타내면 -로도 표현 가능하다.

 

****

Logistic Regression은 Linear function을 사용하지만,

Logistic Regression의 아웃풋은 Log-odds 이다.

 

Linear Regression는 각각의 인스턴스에 대한 Boundary value를 나타내지만,

Logistic Regression은 Output으로서 Log를 취한 Odd를 취한다. 이벤트가 생길 것과 생기지 않을 것에 대한 확률을 나타낼 수 있다.

 

Ref : dgkim5360.tistory.com/entry/why-is-logistic-regression-called-linear-method

 

 

부채나 부도의 확률을 예측하는데에 쓰이고, 성고할지 안할지에 대한 확률, 문서 검색에서 주제에 관련이 있는지 없는지에 대한 확률 등에 많이 쓰인다.


곡선이 그려짐에 따라서 가파르면 더 빠른 시간 안에 클래스를 결정지을 수 있음을 나타낸다.

거리가 0으로부터 멀어질수록 클래스에 속할 확률이 높아진다.

 

maximum likelihood를 구하는 것이 목표이다.


Application of Logistic Regression


Wisconsin Breast Cancer dataset


Non-linear Functions

 

 


Simple Neural Network


Linear Models versus Tree Induction

1. Rule

2. 트리모델은 적은 데이터로 만들면 문제가 많다. 

데이터의 양, 정확도와 다양성이 우리가 보지 못한 데이터에 대해 적용될 수 있는지 알 수 없다.

3. 

4. 과연 얼마만큼 데이터가 필요할까?

적은 양의 데이터로 예측 모델을 만드는 것은 굉장히 위험하다.

데이터의 양이 커질수록 복잡도는 높아진다. 거기에 따라서 수행해야 하는 연산도 많아진다.


Data Mining Process


Comparing learning curves is essential

 

샘플 사이즈가 많아지면 정확도가 달라질 수도 있다.

어떤 차이가 이러한 결과를 나타내는지 이해할 수 있어야 한다.

 


Choice of algorithm is not trivial!

샘플 사이즈가 적을 때는 좋은 성능을 보여주지만 많아지면 어떻게 변화할지 모른다.

'💡 AI > ML' 카테고리의 다른 글

ML W6-1 Overfitting and Its Avoidance  (0) 2021.04.05
ML W5-2 Overfitting and its Avoidance  (0) 2021.04.01
ML W4-1-2 Fitting a Model to Data  (0) 2021.03.22
ML W4-1-1 Supervised Segmentation  (0) 2021.03.22
ML W3-2-2 - Supervised Segmentation  (0) 2021.03.18
복사했습니다!