반응형
SGD는 Stochastic Gradient Descent의 준말로 batch gradient descent와 대비되는 개념이다.
Stochastic Gradient Descent : 전체 data를 가지고 한번의 loss function을 계산하는게 아니라 batch단위로 loss function을 계산.
장점 :
1. 이로인해 loss function을 여러번 빨리 계산할 수 있다
2. local minima에 쉽게 빠지지 않는다. 즉, global minima를 찾을 확률이 높다.
반대로 BGD는 한번 loss를 계산할 때 마다 전체 data를 이용하여 계산하기 때문에 계산량이 많고 오래걸린다.
Batch Gradient Descent는 이름때문에 SGD와 개념이 헷갈릴 수 있지만 여기서 Batch는 데이터 전체 묶음을 의미한다. 그리고 사실 SGD나 다른 개념에서 언급하는 Batch란 엄밀히 말하면 mini-batch라고 말하는 것으나 편의상 batch라고 표현하는 것이다.
loss를 한번 계산하고 parameter업데이트를 1step씩 거칠 때 마다 정확도는 BGD가 더 좋겠지만 결과적으로는 성능 차이로 인해 SGD를 많은 사람들이 선호한다.
반응형
'연구 > deep learning' 카테고리의 다른 글
[GAN] mode collapse는 G와 D가 어떻게 학습될때 발생하는 문제인가? (0) | 2020.12.10 |
---|---|
[occluded data] dataset에 occlusion 취하는법 (0) | 2020.11.04 |
[딥러닝 개념] input image를 normalize해서 넣는 이유 (0) | 2020.11.04 |
[딥러닝 개념] softargmax란? (0) | 2020.11.04 |
[파라미터 수 계산법] conv layer 파라미터 계산법 (0) | 2020.09.09 |