📌 이 글은 권철민님의 딥러닝 CNN 완벽 가이드를 바탕으로 정리한 내용입니다.


목차

  1. SGD와 Mini-Batch GD
  2. SGD와 Mini-Batch GD의 비교

SGD(Stochastic Gradient Descent) 와 Mini-Batch GD

Gradient Descent는 전체 학습데이터를 기반으로 Gradient Descent를 계산한다.

하지만 입력 데이터가 크고 레이어의 갯수가 많을수록 GD를 계산하는데에 많은 자원이 소모된다. 즉 시간이 오래 걸린다.

Weight가 굉장히 많기 때문에 CPU로는 무리이다. 적은 weight는 상관없는데 일반적인 케이스는 그렇지 않다. 

 

이를 극복하기 위한 여러가지 방법이 있는데, 그 중에서 많은 데이터 중 한 건만 가지고 weight 값을 업데이트 하는 방법인 SGD 가 있다.

또 정확도가 그래도 떨어지는 감이 있어서 임의로 특정 크기만큼 계산하는 방법도 있다. Mini-Batch GD 이다.

 

일반적으로 Mini-Batch GD 가 쓰인다.

 

 


SGD 와 Mini-Batch GD 비교

SGD 지그재그 방식으로 하면 범위가 높아지고 수렴이 어렵다

Mini-Batch는 지그재그 현상이 작기 때문에 수렴하는데 수월하게 찾아갈 수 있다.

 

Mini-Batch가 어떻게 Batch 크기만큼 나눠서 GD를 계산하는지 보자.

 

전체 학습 데이터에서 100건을 가져와서 iteration 반복하는 식으로 계산한다.

'🖼 Computer Vision > CNN' 카테고리의 다른 글

CNN - Backpropagation  (0) 2022.01.19
CNN - Deep Neural Network  (0) 2022.01.19
CNN - 보스턴 주택가격 Perceptron 기반 학습  (0) 2022.01.14
CNN - Gradient Descent  (0) 2022.01.14
CNN - Regression, RSS, MSE  (0) 2022.01.14
복사했습니다!