Коли слід використовувати планування швидкості навчання за алгоритмом оптимізації адаптивного алгоритму навчання?

Для того, щоб правильно сходити до оптимального, були винайдені різні алгоритми, які використовують адаптивну швидкість навчання, такі як AdaGrad, Adam і RMSProp. З іншого боку, існує планувальник швидкості навчання, такий як планування потужності та експоненціальне планування.

Однак я не розумію, в яких ситуаціях ви повинні використовувати один над іншим. Я відчуваю, що використання адаптивного алгоритму оптимізації швидкості навчання, такого як Adam, простіше та простіше, ніж використання планувальника швидкості навчання.

Отже, як ви можете правильно використовувати його, залежно від того, які проблеми?

4
Використовуйте адаптивний оптимізатор, коли ви можете дозволити собі не згинати останню краплю продуктивності, інакше графік стане ще одним гіперпараметром для оптимізації. Адаптивність також корисна, коли ваші дані є нестаціонарними, і вам потрібно перекваліфікувати модель (наприклад, в нічну роботу).
додано Автор David, джерело

1 Відповіді

Я не впевнений в інших областях, але останнім часом в області навчання глибокої нейронної мережі є це подання arXiv, Маржинал Значення адаптивних градієнтних методів у навчанні машин .

Адаптивні методи оптимізації, які виконують локальну оптимізацію з метрикою, побудованою з історії ітерацій, стають все більш популярними для навчання глибоких нейронних мереж. Приклади включають AdaGrad, RMSProp і Adam. Ми показуємо, що для простих надпараметризованих задач адаптивні методи часто виявляють різко різні рішення, ніж градієнтне сходження (GD) або стохастичний градієнтний спад (SGD). Побудовано ілюстративну проблему двоїнної класифікації, де дані лінійно відокремлені, GD і SGD досягають нульової помилки тесту, а AdaGrad, Adam і RMSProp отримують помилки тестування довільно близько половини. Ми додатково вивчаємо емпіричну здатність узагальнення адаптивних методів на декількох сучасних глибоких моделях навчання. Ми бачимо, що рішення, виявлені адаптивними методами, узагальнюються гірше (часто суттєво гірше), ніж SGD, навіть якщо ці рішення мають кращу ефективність навчання. Ці результати дозволяють припустити, що практикуючі повинні переглянути використання адаптивних методів для навчання нейронних мережі.

2
додано
Хоча це інформативне, це не відповідає оригінальному питанню. Можливо, додайте його як коментар.
додано Автор Ryan Ahearn, джерело
може, я щось втратив, так що виправте мене. В роботі, як видається, можна припустити, що адаптивні методи можуть бути не такими ж хорошими, як сама SGD. Немає згадки про підходи, засновані на плануванні.
додано Автор Ryan Ahearn, джерело
@ShagunSodhani - Мені здається, що це хоча б частично відповідає на початкове питання, тобто може бути краще навчати нейронні мережі, використовуючи ці методи на основі планування швидкості навчання, а не оптимізувати алгоритми адаптивного навчання?
додано Автор Hades, джерело