📌 이 글은 권철민님의 CNN 완벽 가이드를 바탕으로 정리한 내용입니다.


목차

  1. Regression : 여러개의 독립변수와 한개의 종속변수 간의 상관관계를 모델링하는 기법
  2. 단순선형회귀를 통한 회귀의 이해
  3. RSS 기반의 회귀 오류 측정
  4. MSE : 선형회귀의 비용 함수

Regression(회귀)

Regression은 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭한다.

 

아파트 가격이 형성되는 원리는 방의 개수, 크기, 학군, 역세권 등등이 있다.

이러한 여러개의 독립변수들을 고려해서 아파트 가격이 형성된다.

아파트 가격에 대한 식은 아래와 같이 나타낼 수 있다.

 

 

여기서 W(weight) 들은 독립변수 값에 영향을 미치는 Regression coefficients(회귀 계수)이다.

사람마다 집 자체가 중요한지, 학군이 중요한지, 역근처가 중요한지에 따라 기준이 다르기 때문이다.

 

즉, 아파트 가격은 회귀계수(영향력)x방개수 + 회귀계수(영향력)x아파트크기 ... 이렇게 형성이 되는 것이다.

 

이 최적의 Regression coefficients를 찾아 나가는 것이 머신러닝 회귀 예측의 핵심이다.


Simple Regression(단순 선형 회귀)를 통한 회귀의 이해

왼쪽 그래프를 보면 비교적 아파트 크기가 크면 실제 값도 늘어난다.

근데 그렇지 않은 것도 있다. 아파트 크기는 큰데 상대적으로 가격이 적은 곳도 있다. 

 

이렇게 단순선형회귀로 예측 모델을 세울 수 있다.

f(x) = w0 + w1*x

 

오른쪽 그래프를 보면 각각의 차이(에러, 오차값)가 나는 것을 확인할 수 있다.

최적의 회귀 모델을 찾는다는 것은 이 오차값의 합이 최소가 되는 모델을 만든다는 것이다.

오차의 합이 최소가 될 수 있는 최적의 회귀 계수를 찾는다는 것이다.


RSS(Residual Sum of Square) 기반의 회귀 오류 측정

실제 값에서 예측값을 뺀다. 음수 값이 나오기도 하고, 일반적으로 미분 등의 계산을 편리하게 하기 위해, 제곱을 하여 더하는 방식이 Residual Sum of Square(RSS) 방식이다.

 

우리가 찾고자 하는 것은 회귀계수(W값)이다.

여기서 중요한 것은 RSS에서 Weight 값이 중심 변수임을 인지하는 것이다.

따라서 나중에 미분 때리면 독립변수 x와 종속변수 y는 상수 취급 받아서 없어진다.

 

그리고 나서 RSS를 학습데이터 건수로 나누어서 평균을 구한다.

그것이 바로 MSE(Mean Squared Error)이다.

 

그럼 이 MSE는 어디에 쓰는가?


MSE - 선형 회귀의 비용 함수(Cost function)

바로 Cost function으로 쓴다.

MSE는 바로 비용이다. cost 이다.

크게 해야 하나? 아니다. 당연히 작게 해야한다.

어떻게든 비용을 줄여야 한다.

 

회귀계수(Weight)로 구성되는 MSE 함수를 Cost function(비용함수)라고 한다.

 

이 비용함수가 가지는 값을 오류값(오류^2의 평균) 이다.

지속해서 감소시켜야 하고 이상적으로는 더이상 감소하지 않는 오류값을 찾아야 한다.

더 이상 감소하지 않을 때, 이때의 w값이 최적의 회귀계수가 된다.

 

비용함수는 손실함수(loss function)이라고도 한다.

 

다시 말하지만 회귀의 최종적인 목표는 비용함수를 줄이는 것이다.

따라서 목적함수라고도 한다.

'🖼 Computer Vision > CNN' 카테고리의 다른 글

CNN - 보스턴 주택가격 Perceptron 기반 학습  (0) 2022.01.14
CNN - Gradient Descent  (0) 2022.01.14
CNN - Perceptron  (0) 2022.01.14
Tensor 에 대한 이해  (0) 2021.06.09
cs231n 4강 - Backpropagation  (0) 2021.04.12
복사했습니다!