본문 바로가기

연구/deep learning

[개념] SGD간단 개념 정리

반응형

SGD는 Stochastic Gradient Descent의 준말로 batch gradient descent와 대비되는 개념이다.

Stochastic Gradient Descent : 전체 data를 가지고 한번의 loss function을 계산하는게 아니라 batch단위로 loss function을 계산.

 

장점 :

1. 이로인해 loss function을 여러번 빨리 계산할 수 있다

2. local minima에 쉽게 빠지지 않는다. 즉, global minima를 찾을 확률이 높다.

 

반대로  BGD는 한번 loss를 계산할 때 마다 전체 data를 이용하여 계산하기 때문에 계산량이 많고 오래걸린다.

Batch Gradient Descent는 이름때문에 SGD와 개념이 헷갈릴 수 있지만 여기서 Batch는 데이터 전체 묶음을 의미한다. 그리고 사실 SGD나 다른 개념에서 언급하는 Batch란 엄밀히 말하면 mini-batch라고 말하는 것으나 편의상 batch라고 표현하는 것이다.

 

 

loss를 한번 계산하고 parameter업데이트를 1step씩 거칠 때 마다 정확도는 BGD가 더 좋겠지만 결과적으로는 성능 차이로 인해 SGD를 많은 사람들이 선호한다.

참고 : mangkyu.tistory.com/62

 

Stochastic Gradient Descent(SGD)란?

1. Stochastic Gradient Descent(SGD)란? [ Stochastic Gradient Descent ] Neural Network의 Weight를 조정하는 과정에는 보통 Gradient Descent라는 방법을 사용한다. 이는 네트워크의 Parameter들을 $$ 라고 했..

mangkyu.tistory.com

 

반응형