Встановлення швидкості навчання вашої нейронної мережі.

Джеремі Джордан

Інженер машинного навчання. Широко цікавий.

Ще повідомлення Джеремі Джордана.

швидкості

Джеремі Джордан

У попередніх дописах я обговорював, як ми можемо тренувати нейронні мережі за допомогою зворотного розповсюдження з градієнтним спуском. Одним з ключових гіперпараметрів, який потрібно встановити для тренування нейронної мережі, є швидкість навчання для градієнтного спуску. Нагадуємо, цей параметр масштабує величину наших оновлень ваги, щоб мінімізувати функцію втрат мережі.

Якщо ваш рівень навчання встановлений занадто низьким, тренування буде прогресувати дуже повільно, оскільки ви робите дуже крихітні оновлення ваг у вашій мережі. Однак якщо ваш рівень навчання встановлений занадто високим, це може спричинити небажану дивергентну поведінку у вашій функції втрат. Я візуалізую ці випадки нижче - якщо вам важко інтерпретувати ці візуальні ефекти, я рекомендую прочитати (принаймні) перший розділ у моєму дописі про градієнтний спуск.

Тож як знайти оптимальний рівень навчання?

3e-4 - найкраща швидкість навчання для Адама, опустивши руки.

- Андрей Карпаті (@karpathy) 24 листопада 2016 р

Ідеально! Я думаю, моя робота тут виконана.

(я просто хотів переконатись, що люди розуміють, що це жарт.)

- Андрей Карпаті (@karpathy) 24 листопада 2016 р

(Задоволіть себе, прочитавши цю тему після закінчення цього допису.)

Ландшафт втрат нейронної мережі (візуалізований нижче) є функцією значень параметрів мережі, що кількісно визначає "помилку", пов'язану з використанням певної конфігурації значень параметрів при виконанні висновків (прогнозування) для даного набору даних. Цей пейзаж втрат може виглядати зовсім інакше, навіть для дуже подібних мережевих архітектур. Наведені нижче зображення зроблені з паперу, що візуалізує пейзаж втрат нейронних мереж, де показано, як залишкові з'єднання в мережі можуть дати більш плавну топологію втрат.


Кредит зображення

Оптимальний рівень навчання буде залежати від топології вашого пейзажу втрат, який, у свою чергу, залежить як від архітектури вашої моделі, так і від вашого набору даних. В той час як використання швидкості навчання за замовчуванням (тобто стандартних значень, встановлених вашою бібліотекою глибокого навчання) може дати гідні результати, ви часто можете покращити продуктивність або пришвидшити навчання, шукаючи оптимальний рівень навчання. Сподіваюсь, у наступному розділі ви побачите, що це досить легке завдання.

Систематичний підхід до пошуку оптимального рівня навчання

Зрештою, ми хотіли б, щоб рівень навчання був результатом різкого зменшення втрат мережі. Ми можемо спостерігати це, виконуючи простий експеримент, де ми поступово збільшуємо рівень навчання після кожної міні-партії, фіксуючи втрати з кожним кроком. Це поступове збільшення може мати як лінійний, так і експоненціальний масштаб.

Для занадто низьких темпів навчання втрата може зменшитися, але на дуже невеликій швидкості. При вході в зону оптимальної швидкості навчання ви спостерігатимете швидке падіння функції втрат. Подальше збільшення рівня навчання призведе до збільшення втрат, оскільки оновлення параметрів змушує втрати "відскакувати" і навіть відходити від мінімумів. Пам’ятайте, найкращий рівень навчання пов’язаний з найвищим падінням втрат, тому нас головним чином цікавить аналіз нахилу сюжету.

Ви повинні встановити діапазон меж швидкості навчання для цього експерименту таким, який ви спостерігаєте всі троє фази, що робить оптимальний діапазон тривіальним для ідентифікації.

Ця техніка була запропонована Леслі Смітом у циклічному тарифі для навчання нейронних мереж та євангелізована Джеремі Говардом на курсі fast.ai.

Встановлення графіка для регулювання темпу навчання під час навчання

Ще одна часто застосовувана техніка, відома як відпал швидкості навчання, рекомендує починати з відносно високого рівня навчання, а потім поступово знижувати рівень навчання під час навчання. Інтуїція такого підходу полягає в тому, що ми хотіли б швидко перейти від початкових параметрів до діапазону "хороших" значень параметрів, але тоді ми хотіли б, щоб рівень навчання був досить малим, щоб ми могли дослідити "глибші, але вужчі частини функція збитків "(із приміток Карпарті CS231n). Якщо вам важко уявити те, що я щойно згадав, згадайте, що занадто висока швидкість навчання може призвести до того, що оновлення параметрів перестрибне ідеальні мінімуми, і подальші оновлення або призведуть до тривалої шумної конвергенції в загальному регіоні мінімумів, або в більш екстремальних випадках може призвести до відхилення від мінімумів.

Найпопулярнішою формою відпалу швидкості навчання є ступінчастий спад, коли швидкість навчання зменшується на деякий відсоток після встановленої кількості епох навчання.

Більш загально, ми можемо встановити, що корисно визначити a графік темпів навчання в якому швидкість навчання оновлюється під час навчання відповідно до певного правила.

Циклічні показники навчання

У раніше згаданій роботі "Циклічні показники навчання для навчання нейронних мереж" Леслі Сміт пропонує циклічний графік темпів навчання, який варіюється між двома обмеженими значеннями. Основний графік темпів навчання (візуалізований нижче) - це правило трикутного оновлення, але він також згадує про використання трикутного оновлення у поєднанні з фіксованим циклічним спадом або експоненціальним циклічним спадом.


Кредит зображення

Примітка: Наприкінці цього допису я надаю код для реалізації цього графіку темпів навчання. Таким чином, якщо вам не байдуже розуміти математичне формулювання, ви можете пройти повз цей розділ.

Ми можемо написати загальний графік як

де $ x $ визначається як

і $ cycle $ можна розрахувати як

де $ \ eta_ $ і $ \ eta_ $ визначають межі нашого рівня навчання, $ ітерацій $ представляє кількість виконаних міні-пакетів, $ stepsize $ визначає половину тривалості циклу. Наскільки я можу зрозуміти, $ 1-x $ завжди має бути позитивним, тому, здається, операція $ \ max $ не є суворо необхідною.

Для того, щоб зрозуміти, як працює це рівняння, давайте поступово будувати його за допомогою візуалізації. Для візуальних зображень нижче показано трикутне оновлення для 3 повних циклів із кроком 100 ітерацій. Пам’ятайте, одна ітерація відповідає одній міні-партії тренувань.

Перш за все, ми можемо встановити свій «прогрес» під час тренінгу з точки зору півроків, які ми пройшли. Ми вимірюємо свій прогрес з точки зору півциклів, а не повних циклів, щоб ми могли досягти симетрії в межах циклу (це має стати більш зрозумілим, коли ви продовжуватимете читати).

Далі ми порівнюємо наш прогрес напівциклу з кількістю напівциклів, які будуть завершені в кінці поточного циклу. На початку циклу у нас є два напівцикли, які ще потрібно завершити. В кінці циклу це значення досягає нуля.

Далі ми додамо 1 до цього значення, щоб зрушити функцію, яка буде центрована на осі y. Зараз ми показуємо свій прогрес у циклі з посиланням на точку напівциклу.

На даний момент ми можемо взяти абсолютне значення, щоб отримати трикутну форму протягом кожного циклу. Це значення, яке ми присвоюємо $ x $.

Однак ми хотіли б, щоб наш графік швидкості навчання починався з мінімального значення, збільшуючись до максимального значення в середині циклу, а потім зменшуючись до мінімального значення. Ми можемо досягти цього, просто розрахувавши $ 1-x $.

Тепер у нас є значення, яке ми можемо використовувати для модуляції швидкості навчання, додаючи деяку частку діапазону швидкості навчання до мінімальної швидкості навчання (також називаної базовою швидкістю навчання).

Сміт пише, головним припущенням обґрунтування циклічного рівня навчання (на відміну від того, який лише зменшується) є "що Збільшення рівня навчання може мати короткочасний негативний ефект і все ж досягти більш довгострокового корисного ефекту."Дійсно, його стаття включає кілька прикладів еволюції функції втрат, яка тимчасово відхиляється до більших втрат, водночас сходячись до менших втрат у порівнянні з базовою фіксованою швидкістю навчання.

Щоб отримати інтуїцію щодо того, чому цей короткочасний ефект дасть довгостроковий позитивний ефект, важливо зрозуміти бажані характеристики нашого зближеного мінімуму. Зрештою, ми хотіли б, щоб наша мережа вчилася на даних таким чином, що узагальнює на невидимі дані. Крім того, мережа з хорошими властивостями узагальнення повинна бути надійною в тому сенсі, що незначні зміни параметрів мережі не спричиняють різких змін у продуктивності. З огляду на це, має сенс, що різкі мінімуми призводять до поганого узагальнення, оскільки незначні зміни значень параметрів можуть призвести до різко більших втрат. Дозволяючи швидкості навчання в рази збільшуватися, ми можемо "вистрибнути" з різких мінімумів, що тимчасово збільшить наші втрати, але в кінцевому підсумку може призвести до зближення на більш бажаних мінімумах.

Примітка: Хоча "плоскі мінімуми для гарного узагальнення" є загальновизнаними, ви можете прочитати хороший контраргумент тут.

Додатково, збільшення швидкості навчання може також дозволити "швидше обходити плато сідлових точок". Як ви можете бачити на зображенні нижче, градієнти можуть бути дуже малими в точці сідла. Оскільки оновлення параметрів є функцією градієнта, це призводить до того, що наша оптимізація робить дуже маленькі кроки; тут може бути корисно збільшити рівень навчання, щоб уникнути застрягання занадто довго в точці сідла.


Кредит зображення (із змінами)

Примітка: Сідлова точка, за визначенням, є критичною точкою, в якій деякі розміри дотримуються локального мінімуму, тоді як інші розміри - локального максимуму. Оскільки нейронні мережі можуть мати тисячі або навіть мільйони параметрів, навряд чи ми будемо спостерігати справжній локальний мінімум за всіма цими вимірами; сідлові точки набагато частіше трапляються. Коли я говорив про "різкі мінімуми", насправді ми повинні зобразити сідлову точку, де мінімальні розміри дуже круті, а максимальні дуже широкі (як показано нижче).

Стохастичний градієнтний спуск із теплими перезапусками (SGDR)

Подібний підхід циклічний підхід відомий як стохастичний градієнтний спуск з теплими перезапусками де агресивний графік відпалу поєднується з періодичними "перезапусками" до початкової швидкості навчання.

Ми можемо написати цей графік як

де $$ - швидкість навчання на кроці $ t $ (збільшується кожна міні-партія), $ ^ i> $ і $ ^ i> $ визначають діапазон бажаних темпів навчання, $ T_ $ представляє кількість епох з моменту останнього перезапуску (це значення обчислюється на кожній ітерації і, отже, може приймати дробові значення), і $ T_$ визначає кількість епох у циклі. Спробуємо розбити це рівняння.

Цей графік відпалу покладається на функцію косинуса, яка коливається від -1 до 1. $ >> $ може приймати значення від 0 до 1, що є вхідними даними нашої функції косинуса. Відповідна область функції косинуса виділена нижче зеленим кольором. Додаючи 1, наша функція варіюється від 0 до 2, яка потім масштабується на $ \ frac $, щоб тепер змінюватись від 0 до 1. Таким чином, ми просто беремо мінімальну швидкість навчання і додаємо деяку частку вказаного діапазону швидкості навчання ($ ^ i - \ eta_ ^ i> $). Оскільки ця функція починається з 1 і зменшується до 0, результатом є швидкість навчання, яка починається з максимуму зазначеного діапазону і занепадає до мінімального значення. Як тільки ми досягли кінця циклу, $ T_ $ скидається до 0, і ми починаємо назад із максимальною швидкістю навчання.

Автори зазначають, що цей графік темпів навчання може бути додатково адаптований до:

  1. Подовжуйте цикл у міру проходження тренувань.
  2. Загнути $ ^ i> $ і $ ^ i> $ після кожного циклу.

Різко збільшивши рівень навчання при кожному перезапуску, ми можемо фактично вийти з локальних мінімумів і продовжувати вивчати пейзаж втрат.

Акуратна ідея: Зробивши знімки ваг в кінці кожного циклу, дослідники змогли створити ансамбль моделей за рахунок навчання однієї моделі. Це пов’язано з тим, що мережа «осідає» на різних локальних оптимумах від циклу до циклу, як показано на малюнку нижче.

Впровадження

Як пошук оптимального діапазону темпів навчання, так і призначення графіка курсу навчання можуть бути реалізовані досить тривіально за допомогою Keras Callbacks.

Пошук оптимального діапазону швидкості навчання

Ми можемо написати зворотний виклик Keras, який відстежує втрати, пов'язані зі швидкістю навчання, яка змінюється лінійно в певному діапазоні.

Встановлення графіка курсу навчання

Крок занепаду
Для простого кроку занепаду ми можемо використовувати LearningRateScheduler Callback.

Коефіцієнт циклічного навчання

Щоб застосувати техніку циклічного навчання, ми можемо посилатися на це репо, яке вже застосувало цю техніку в роботі. Насправді це репо цитується у додатку до статті.

Стохастичний градієнтний спуск з перезапусками

Знімки ансамблів
Щоб застосувати техніку "Поїзд 1, отримайте M безкоштовно", ви можете звернутися до цього репо.

Подальше читання

  • Stanford CS231n: Відпал швидкості навчання
  • Циклічні курси навчання для навчання нейронних мереж
  • Вивчення топології функції втрат із циклічними показниками навчання
  • SGDR: Стохастичний градієнтний спуск із теплими перезапусками
  • Ансамблі знімків: Поїзд 1, отримайте M безкоштовно
    • (розширення концепції) Поверхні втрат, підключення до режиму та швидке збирання DNN
  • Візуалізація пейзажу втрат нейронних мереж
  • Оптимізація основних моментів глибокого навчання в 2017 році: Себастьян Рудер
  • Навчання великих партій для глибокого навчання: Розрив узагальнення та різкі мінімуми
  • Гострі мінімуми можуть узагальнити для глибоких мереж
  • Дві фази градієнтного спуску при глибокому навчанні
  • Недавні досягнення для кращого розуміння глибокого навчання - Частина I

Підпишіться на Джеремі Джордана

Отримуйте останні повідомлення, доставлені прямо у вашу поштову скриньку