최대 1 분 소요

모멘텀

모멘텀은 인공신경망을 훈련하는데 쓰이는 최적화 기술이고 경사 기반 최적화 알고리즘, 특히 확률적 경사 하강법의 수렴 속도를 향상시키고 안정성을 향상시키기 위해 자주 적용된다. Boris Polyak에 의해 1964년에 소개되었고 AI, 딥러닝에서 많은 최적화 알고리즘의 근본적인 바탕이 되었다..

다음은 모멘텀이 작동하는 방식이다.

  1. Gradient Accumulation : 일반적인 경사하강법에서, 모델의 파라미터는 해당 파라미터에 대한 손실 함수의 음의 기울기 방향으로 업데이트된다.
  2. Momentum Term : 모멘텀 최적화에서, momentum term ‘γ ‘(0.9같은 값으로 설정)이 있다. 이 항은 이전의 기울기를 누적하고 최적화 프로세스에 관성을 부여하는데 사용된다. 업데이트 식은 다음과 같다. v(t+1) = γ * v(t) + η * ∇(J(θ(t))). v(t)는 속도를 의미한다.
  3. Parameter Update : 파라미터는 속도 항을 이용해 업데이트 된다(θ(t+1) = θ(t) - v(t+1)). 이 업데이트는 현재 경사와 이전 반복으로부터 누적 기울기를 결합하여 최적화 프로세스에 모멘텀을 제공한다.

모멘텀은 다음과 같은 장점이 있다.

  1. 수렴속도 향상 : 모멘텀을 사용하면 optimizer가 이전 반복의 방향과 속도를 유지할 수 있으므로(지그재그로 움직이지 않으므로) 평탄하거나 기울기가 있는 손실 영역을 극복하는데 도움이 된다.
  2. 진동 감쇠 : 매개변수 공간에서 진동을 완화하여 최적화를 더욱 안정적으로 만드는데 도움이 된다.
  3. local minima 탈출 : 축적된 모멘텀은 작은 경사가 있는 영역을 통과하여 local minima에 빠지지 않도록 할 수 있다.

댓글남기기