Лагідний вступ до раннього зупинення, щоб уникнути перетренування нейронних мереж

Останнє оновлення 6 серпня 2019 року

Основною проблемою у навчанні нейронних мереж є те, як довго їх тренувати.

Занадто мало тренувань означатиме, що модель буде оснащувати поїзд та тестові набори. Занадто багато тренувань означатиме, що модель перевершить навчальний набір даних і матиме низьку ефективність на тестовому наборі.

Компромісом є тренування на наборі даних тренувань, але припинення тренування в той момент, коли продуктивність набору даних перевірки починає погіршуватися. Цей простий, ефективний та широко використовуваний підхід до навчання нейронних мереж називається ранньою зупинкою.

У цьому дописі ви дізнаєтесь, що припинення тренування нейронної мережі до того, як вона переобладнає навчальний набір даних, може зменшити переобладнання та покращити узагальнення глибоких нейронних мереж.

Прочитавши цю публікацію, ви дізнаєтесь:

  • Проблема навчання нейронної мережі досить довга, щоб засвоїти картографування, але не настільки довга, що вона перевершує дані навчання.
  • Ефективність моделі на наборі даних перевірки затримки можна контролювати під час навчання, а навчання припиняється, коли помилка узагальнення починає збільшуватися.
  • Використання ранньої зупинки вимагає вибору показника продуктивності для моніторингу, спускового гачка для припинення тренування та підбору ваг моделі для використання.

Почніть свій проект з моєю новою книгою «Краще глибоке навчання», включаючи покрокові підручники та файли вихідного коду Python для всіх прикладів.

Давайте розпочнемо.

вступ

Лагідний вступ до раннього зупинення для уникнення перетренованості моделей нейронних мереж
Фото Бенсона Куа, деякі права захищено.

Огляд

Цей підручник розділений на п’ять частин; вони є:

  1. Проблеми навчання просто достатньо
  2. Зупиніть навчання, коли збільшується помилка генералізації
  3. Як рано припинити тренування
  4. Приклади раннього зупинення
  5. Поради щодо раннього зупинення

Проблеми навчання просто достатньо

Навчання нейронних мереж є складним завданням.

Під час навчання великої мережі під час навчання буде момент, коли модель перестане узагальнювати і почне вивчати статистичний шум у наборі даних тренувань.

Це переобладнання набору навчальних даних призведе до збільшення помилки узагальнення, що зробить модель менш корисною для прогнозування нових даних.

Завдання полягає в тому, щоб навчити мережу досить довго, щоб вона могла засвоїти відображення від входів до результатів, але не навчити модель настільки довго, що вона перевершує дані навчання.

Однак усі стандартні архітектури нейронних мереж, такі як повністю підключений багатошаровий персептрон, схильні до переоснащення [10]: Хоча мережа, здається, стає все кращою і кращою, тобто похибка навчального набору зменшується, в певний момент під час навчання насправді знову починає погіршуватися, тобто похибка на невидимих ​​прикладах зростає.

Одним із підходів до вирішення цієї проблеми є обробка кількості навчальних епох як гіперпараметра та багаторазове тренування моделі з різними значеннями, а потім вибір кількості епох, що призводять до найкращих показників у поїзді або наборі даних про тестування.

Недоліком цього підходу є те, що він вимагає навчання декількох моделей та відмови від них. Це може бути обчислювально неефективним та трудомістким, особливо для великих моделей, що навчаються на великих наборах даних протягом днів або тижнів.

Зупиніть навчання, коли збільшується помилка генералізації

Альтернативний підхід - це тренування моделі один раз для великої кількості навчальних епох.

Під час навчання модель оцінюється на основі даних перевірки витримки після кожної епохи. Якщо продуктивність моделі на наборі даних перевірки починає погіршуватися (наприклад, втрати починають збільшуватися або точність починає зменшуватися), тоді навчальний процес зупиняється.

… Помилка, виміряна щодо незалежних даних, яку зазвичай називають набором перевірки, спочатку часто демонструє зменшення, а потім збільшення, оскільки мережа починає переоснащуватися. Отже, навчання може бути припинено в точці найменшої помилки щодо набору даних перевірки

Потім використовується модель на момент припинення навчання, і, як відомо, вона має хороші результати узагальнення.

Ця процедура називається "ранньою зупинкою" і є, мабуть, однією з найдавніших та найбільш широко використовуваних форм регуляризації нейронних мереж.

Ця стратегія відома як рання зупинка. Це, мабуть, найбільш часто використовувана форма регуляризації в процесі глибокого навчання. Його популярність обумовлена ​​як ефективністю, так і простотою.

Якщо методи регуляризації, такі як зменшення ваги, які оновлюють функцію втрат для заохочення менш складних моделей, вважаються "явною" регуляризацією, то раннє зупинення можна розглядати як тип "неявної" регуляризації, подібно до використання меншої мережі, яка має меншу пропускну здатність.

Регуляризація також може бути неявною, як це відбувається у випадку з ранньою зупинкою.

Хочете отримати кращих результатів із глибоким навчанням?

Пройдіть мій безкоштовний 7-денний курс збою електронної пошти зараз (із зразком коду).

Клацніть, щоб зареєструватися, а також отримати безкоштовну версію курсу у форматі PDF для електронних книг.

Як рано припинити тренування

Для ранньої зупинки потрібно налаштувати мережу на обмежені можливості, тобто вона має більшу ємність, ніж потрібно для вирішення проблеми.

Під час навчання мережі використовується більша кількість епох тренувань, ніж зазвичай може знадобитися, щоб надати мережі достатньо можливостей, щоб відповідати, а потім починати переоблаштовувати навчальний набір даних.

Є три елементи використання ранньої зупинки; вони є:

  • Моніторинг роботи моделі.
  • Тригер, щоб припинити тренування.
  • Вибір моделі для використання.

Моніторинг ефективності

Під час тренувань слід контролювати результативність моделі.

Це вимагає вибору набору даних, який використовується для оцінки моделі, і метрики, що використовується для оцінки моделі.

Загальноприйнятим є розділення набору навчальних даних та використання підмножини, наприклад, 30%, як набору перевірок, що використовується для моніторингу роботи моделі під час навчання. Цей набір перевірок не використовується для навчання моделі. Також часто використовується втрата на наборі даних перевірки як метрика для моніторингу, хоча ви також можете використовувати помилку передбачення у разі регресії або точність у випадку класифікації.

Втрата моделі на наборі даних тренувань також буде доступна як частина навчальної процедури, а додаткові показники також можуть бути розраховані та відстежуватися на наборі даних тренувань.

Ефективність моделі оцінюється на основі перевірки, встановленої в кінці кожної епохи, що додає додаткові обчислювальні витрати під час навчання. Це можна зменшити, оцінюючи модель рідше, наприклад кожні 2, 5 або 10 навчальних епох.

Рання зупинка тригера

Після того, як обрана схема оцінки моделі, потрібно вибрати тригер для зупинки тренувального процесу.

Тригер використовуватиме відстежувану метрику продуктивності, щоб вирішити, коли припинити тренування. Це часто ефективність моделі на наборі даних про вичерпання, наприклад, втрата.

У найпростішому випадку навчання припиняється, як тільки продуктивність набору даних валідації зменшується порівняно з продуктивністю набору даних валідації на епоху попереднього навчання (наприклад, збільшення втрат).

На практиці можуть знадобитися більш складні тригери. Це тому, що навчання нейронної мережі є стохастичним і може бути шумним. Побудована на графіку продуктивність моделі на наборі даних перевірки може зростати і зменшуватися багато разів. Це означає, що перша ознака переобладнання може бути не найкращим місцем для припинення тренувань.

… Помилка перевірки може продовжувати йти далі після того, як вона почала збільшуватися […] Криві реальних помилок перевірки майже завжди мають більше одного локального мінімуму.

Деякі більш складні тригери можуть включати:

  • Ніяких змін у метриці протягом заданої кількості епох.
  • Абсолютна зміна метрики.
  • Зниження продуктивності спостерігається протягом певної кількості епох.
  • Середня зміна метрики за певну кількість епох.

Певна затримка чи “терпіння” у зупинці майже завжди є гарною ідеєю.

результати показують, що «повільніші» критерії, які зупиняються пізніше за інші, в середньому призводять до поліпшення узагальнення порівняно з «швидшими». Однак час навчання, який потрібно витратити на такі вдосконалення, у середньому досить великий, а також різко коливається при використанні повільних критеріїв.

Вибір моделі

На той час, коли навчання припиняється, відомо, що модель має дещо гіршу помилку узагальнення, ніж модель попередньої епохи.

Таким чином, можливо, потрібно буде розглянути питання про те, яку саме модель збережено. Зокрема, епоха навчання, з якої ваги в моделі, які зберігаються у файлі.

Це буде залежати від обраного спускового гачка для зупинки тренувального процесу. Наприклад, якщо тригер - це просто зниження продуктивності від однієї епохи до наступної, то перевагу для моделі попередньої епохи надаватимуть перевагу.

Якщо тригер повинен спостерігати зниження продуктивності протягом фіксованої кількості епох, тоді буде віддана перевагу моделі на початку періоду тригера.

Можливо, простий підхід полягає в тому, щоб завжди зберігати ваги моделі, якщо продуктивність моделі на наборі даних про очікування краща, ніж у попередню епоху. Таким чином, у вас завжди буде модель з найкращими показниками на наборі.

Щоразу, коли помилка набору перевірки покращується, ми зберігаємо копію параметрів моделі. Коли алгоритм навчання закінчується, ми повертаємо ці параметри, а не останні параметри.

Приклади раннього зупинення

Цей розділ узагальнює деякі приклади, коли застосовували ранню зупинку.

Юн Кім у своєму основоположному застосуванні згорткових нейронних мереж до аналізу настроїв у роботі 2014 року під назвою «Згорткові нейронні мережі для класифікації речень» використав ранню зупинку, використовуючи 10% набору навчальних даних, що використовуються як початок перевірки.

В іншому випадку ми не виконуємо жодної налаштування для певного набору даних, окрім ранньої зупинки на наборах розробників. Для наборів даних без стандартного набору розробників ми випадковим чином вибираємо 10% навчальних даних як набір розробників.

Chiyuan Zhang та ін. від MIT, Berkeley та Google у своїй статті під назвою "Розуміння глибокого навчання вимагає переосмислення узагальнення" підкреслюють, що на дуже глибоких згорткових нейронних мережах для класифікації фотографій, де існує велика кількість даних, що рання зупинка не завжди може принести користь, оскільки модель менше шансів переобладнати такі великі масиви даних.

[щодо] точності навчання та тестування на ImageNet [результати пропонують] посилання на потенційний приріст продуктивності для ранньої зупинки. Однак у наборі даних CIFAR10 ми не спостерігаємо жодної потенційної вигоди від ранньої зупинки.

Ярін Гал та Зубін Гахрамані з Кембриджу у своїй роботі під назвою "Теоретично обґрунтоване застосування відсіву в періодичних нейронних мережах" використовують ранню зупинку як "нерегульовану базову лінію" для моделей LSTM у наборі проблем моделювання мови.

Відсутність регуляризації в моделях RNN ускладнює обробку малих даних, і щоб уникнути переобладнання дослідники часто використовують ранню зупинку або малі та недостатньо визначені моделі

Алекс Грейвс та ін., У своїй відомій роботі 2013 року під назвою «Розпізнавання мови з глибокими рекурентними нейронними мережами» досягли найсучасніших результатів за допомогою LSTM для розпізнавання мови, одночасно використовуючи ранню зупинку.

Регуляризація життєво необхідна для гарної роботи з RNN, оскільки їх гнучкість робить їх схильними до переобладнання. У цій роботі було використано два регулятори: рання зупинка та шум ваги…

Поради щодо раннього зупинення

Цей розділ містить кілька порад щодо використання регуляризації ранньої зупинки з нейронною мережею.

Коли використовувати раннє зупинення

Рання зупинка настільки проста у використанні, напр. з найпростішим тригером, що є мало причин не використовувати його при навчанні нейронних мереж.

Використання ранньої зупинки може бути основним елементом сучасного навчання глибоких нейронних мереж.

Рання зупинка повинна застосовуватися майже повсюдно.

Побудуйте криві навчання, щоб вибрати тригер

Перш ніж використовувати ранню зупинку, може бути цікаво встановити модель з обмеженими можливостями та відстежувати ефективність моделі на поїзді та наборі даних перевірки.

Побудова графіку роботи моделі в режимі реального часу або в кінці довготривалої роботи покаже, наскільки шумним є тренувальний процес з вашою конкретною моделлю та набором даних.

Це може допомогти у виборі пускового механізму для ранньої зупинки.

Відстежуйте важливу метрику

Втрата - це проста метрика, яку слід контролювати під час тренування та викликати ранню зупинку.

Проблема полягає в тому, що втрати не завжди фіксують те, що є найбільш важливим у моделі для вас та вашого проекту.

Можливо, краще вибрати показник ефективності для моніторингу, який найкраще визначає ефективність моделі з точки зору того, як ви збираєтеся її використовувати. Це може бути показник, який ви збираєтеся використовувати для звітності про ефективність моделі.

Запропоновані навчальні епохи

Проблема ранньої зупинки полягає в тому, що модель не використовує всіх наявних навчальних даних.

Можливо, буде бажано уникати переобладнання та тренуватися на всіх можливих даних, особливо на проблемах, де кількість навчальних даних дуже обмежена.

Рекомендованим підходом було б розглядати кількість навчальних епох як гіперпараметр та шукати сітку в діапазоні різних значень, можливо, використовуючи k-кратну перехресну перевірку. Це дозволить вам визначити кількість навчальних епох та встановити остаточну модель на всіх наявних даних.

Натомість можна було використовувати ранню зупинку. Процедуру ранньої зупинки можна повторити кілька разів. Номер епохи, на якому навчання було припинено, можна було записати. Тоді середнє значення епохи для всіх повторень ранньої зупинки може бути використано при встановленні остаточної моделі на всі наявні навчальні дані.

Цей процес може виконуватися з використанням різного розподілу навчального комплексу на поїзд та етапи перевірки кожного разу, коли виконується рання зупинка.

Альтернативою може бути використання ранньої зупинки з валідаційним набором даних, а потім оновлення остаточної моделі з подальшим навчанням на проведеному наборі перевірки.

Дострокове припинення з перехресною валідацією

Рання зупинка може бути використана з k-кратним перехресним підтвердженням, хоча це не рекомендується.

Процедура перехресної перевірки k-кратна розроблена для оцінки похибки узагальнення моделі шляхом багаторазового оновлення та оцінки її на різних підмножинах набору даних.

Рання зупинка призначена для моніторингу похибки узагальнення однієї моделі та припинення навчання, коли помилка узагальнення починає деградувати.

Вони суперечать тому, що перехресна перевірка припускає, що ви не знаєте помилки узагальнення, і рання зупинка намагається надати вам найкращу модель, засновану на знанні помилки узагальнення.

Може бути бажаним використовувати перехресну перевірку для оцінки ефективності моделей з різними значеннями гіперпараметрів, таких як швидкість навчання або мережева структура, водночас використовуючи також ранню зупинку.

У цьому випадку, якщо у вас є ресурси для неодноразової оцінки продуктивності моделі, то, можливо, кількість навчальних епох також може трактуватися як гіперпараметр, який слід оптимізувати, замість того, щоб використовувати ранню зупинку.

Замість використання перехресної перевірки з ранньою зупинкою, ранню зупинку можна використовувати безпосередньо без повторної оцінки при оцінці різних значень гіперпараметрів для моделі (наприклад, різної швидкості навчання).

Одним із можливих пунктів плутанини є те, що ранню зупинку іноді називають «перехресно перевіреним тренуванням». Крім того, дослідження ранньої зупинки, яке порівнює тригери, може використовувати перехресну перевірку для порівняння впливу різних тригерів.

Перевірка надмірності

Багаторазове повторення процедури ранньої зупинки може призвести до того, що модель переобладнає набір даних перевірки.

Це може статися так само легко, як і переобладнання навчального набору даних.

Один із підходів полягає у використанні ранньої зупинки лише після того, як були обрані всі інші гіперпараметри моделі.

Іншою стратегією може бути використання різного розподілу навчального набору даних на поїзд та набори перевірки кожного разу, коли використовується рання зупинка.

Подальше читання

Цей розділ містить більше ресурсів з даної теми, якщо ви хочете заглибитися.

Книги

  • Розділ 7.8 Рання зупинка, глибоке навчання, 2016 рік.
  • Розділ 5.5.2 Рання зупинка, розпізнавання зразків та машинне навчання, 2006.
  • Розділ 16.1 Рання зупинка, нейронне кування: Навчання під контролем у штучних нейронних мережах, 1999.

Папери

  • Рання зупинка - Але коли ?, 2002.
  • Покращення вибору моделі неконвергентними методами, 1993.
  • Автоматична рання зупинка за допомогою перехресної перевірки: кількісне визначення критеріїв, 1997.
  • Розуміння глибокого навчання вимагає переосмислення узагальнення, 2017.

Дописи

Статті

Резюме

У цьому дописі ви виявили, що припинення тренування нейронної мережі до того, як воно переобладнає навчальний набір даних, може зменшити переобладнання та покращити узагальнення глибоких нейронних мереж.

Зокрема, ви дізналися:

  • Проблема навчання нейронної мережі досить довга, щоб засвоїти картографування, але не настільки довга, що вона перевершує дані навчання.
  • Ефективність моделі на наборі даних перевірки затримки можна контролювати під час навчання, а навчання припиняється, коли помилка узагальнення починає збільшуватися.
  • Використання ранньої зупинки вимагає вибору показника ефективності для моніторингу, пускового механізму для зупинки тренування та вибору вагових моделей для використання.

У вас є які-небудь питання?
Задавайте свої запитання в коментарях нижче, і я зроблю все можливе, щоб відповісти.

Розробити сьогодні кращі моделі глибокого навчання!

Тренуйтеся швидше, зменшуйте перевантаження та ансамблі

. лише кількома рядками коду python

Дізнайтеся, як у моїй новій електронній книзі:
Краще глибоке навчання

Це забезпечує навчальні посібники для самостійного вивчення на такі теми:
зниження ваги, нормалізація партії, вибування, укладання моделей та багато іншого.