Рецепт навчання нейронних мереж

Кілька тижнів тому я опублікував твіт на тему "Найпоширеніші помилки нейронних мереж", перерахувавши кілька загальних припущень, пов'язаних з тренуванням нейронних мереж. Твіт отримав трохи більше залучення, ніж я передбачав (включаючи веб-семінар:)). Зрозуміло, що багато людей особисто стикалися з великим розривом між "ось як працює згортковий шар" і "наш конвент досягає найсучасніших результатів".

Тож я подумав, що може бути цікаво відмахнутися від свого курного блогу, щоб розширити свій твіт до довгої форми, на яку ця тема заслуговує. Однак, замість того, щоб переходити до переліку більш типових помилок або їх уточнення, я хотів трохи поглибитись і поговорити про те, як можна взагалі уникнути цих помилок (або виправити їх дуже швидко). Фокус у цьому полягає у дотриманні певного процесу, який, наскільки я можу зрозуміти, не дуже часто документується. Почнемо з двох важливих спостережень, які мотивують це.

1) Тренування нейронних мереж - це дірява абстракція

Нібито легко розпочати тренування нейронних мереж. Численні бібліотеки та фреймворки пишаються тим, що демонструють 30-рядкові диво-фрагменти, які вирішують ваші проблеми з даними, створюючи (помилкове) враження, що цей матеріал підключений і працює. Поширені речі, наприклад:

Ці бібліотеки та приклади активізують ту частину нашого мозку, яка знайома зі стандартним програмним забезпеченням - місце, де часто можна отримати чисті API та абстракції. Просить бібліотеку продемонструвати:

Круто! Сміливий розробник взяв на себе тягар розуміння рядків запитів, URL-адрес, запитів GET/POST, HTTP-з'єднань тощо, і багато в чому приховав складність за кількома рядками коду. Це те, що ми знайомі і очікуємо. На жаль, нейронні мережі не є нічим подібним. Вони не є “готовою” технологією, коли ви трохи відхиляєтесь від навчання класифікатора ImageNet. Я намагався зробити це в своєму дописі "Так, ви повинні розуміти зворотний зв’язок", вибравши зворотне розмноження і назвавши його "дірявою абстракцією", але, на жаль, ситуація набагато важча. Backprop + SGD магічно не змушує вашу мережу працювати. Норма партії магічним чином не змушує її сходитися швидше. RNN магічним чином не дозволяють "підключати" текст. І те, що ви можете сформулювати свою проблему так, як RL, не означає, що ви повинні це робити. Якщо ви наполягаєте на використанні технології, не розуміючи, як вона працює, ви, ймовірно, зазнаєте невдачі. Що призводить мене до ...

2) Тренування нейронних мереж не вдається безшумно

При порушенні або неправильному налаштуванні коду ви часто отримуєте певний виняток. Ви підключили ціле число, де щось очікувало рядок. Функція очікувала лише 3 аргументи. Помилка цього імпорту. Цей ключ не існує. Кількість елементів у двох списках неоднакова. Крім того, часто можна створити модульні тести для певної функціональності.

Це лише початок, коли справа стосується тренування нейронних мереж. Усе може бути синтаксично правильним, але все це не впорядковано належним чином, і це насправді важко сказати. „Можлива поверхня помилки” велика, логічна (на відміну від синтаксичної) і дуже складна для модульного тесту. Наприклад, можливо, ви забули перевернути ярлики, коли перегортали зображення вліво-вправо під час збільшення даних. Ваша мережа все ще може (шокуюче) працювати досить добре, тому що ваша мережа може внутрішньо навчитися виявляти перевернуті зображення, а потім перевертає свої прогнози вліво-вправо. Або, можливо, ваша авторегресивна модель випадково сприймає те, що вона намагається передбачити, як вхідну інформацію через непомітну помилку. Або ви намагалися обрізати свої градієнти, але замість цього перерізали втрату, спричиняючи ігнорування прикладів, що відкидаються, під час навчання. Або ви ініціалізували свої ваги з попередньо підготовленого контрольно-пропускного пункту, але не використовували початкове значення. Або ви просто зіпсували налаштування для потужностей регуляризації, швидкості навчання, швидкості затухання, розміру моделі тощо. Тому ваша неправильно налаштована нейронна мережа видасть винятки, лише якщо вам пощастить; Здебільшого він тренується, але мовчки працює трохи гірше.

Як результат, (а це надто важко переоцінити) «швидкий і лютий» підхід до навчання нейронних мереж не працює і призводить лише до страждань. Зараз страждання є цілком природною частиною того, щоб нейронна мережа працювала добре, але її можна пом'якшити, якщо бути ретельною, захисною, параноїчною та одержимою візуалізацією практично всіх можливих речей. Якість, яка на моєму досвіді найбільше корелює з успіхом у глибокому навчанні, - це терпіння та увага до деталей.

Рецепт

У світлі вищезазначених двох фактів, я розробив для себе конкретний процес, якого я дотримуюсь, застосовуючи нейронну мережу до нової проблеми, який я спробую описати. Ви побачите, що ці два принципи сприймаються дуже серйозно. Зокрема, він будується від простого до складного і на кожному кроці ми висуваємо конкретні гіпотези про те, що станеться, а потім або перевіряємо їх експериментом, або досліджуємо, поки не знайдемо певної проблеми. Що ми намагаємось запобігти дуже важко - це введення багато «неперевіреної» складності відразу, що обов’язково приведе до помилок/неправильних конфігурацій, які знадобляться назавжди (якщо коли-небудь). Якщо написання коду нейронної мережі було подібним до тренувального, ви хочете використовувати дуже малу швидкість навчання і вгадувати, а потім оцінювати повний набір тестів після кожної ітерації.

1. Станьте одним із даними

Перший крок до навчання нейронної мережі - це взагалі не торкатися коду нейронної мережі, а натомість почати з ретельного перевірки ваших даних. Цей крок є критичним. Я люблю витрачати багато часу (вимірюється в одиницях годин), перевіряючи тисячі прикладів, розуміючи їх розподіл та шукаючи закономірності. На щастя, ваш мозок у цьому досить добре справляється. Одного разу я виявив, що дані містять повторювані приклади. Іншого разу я виявив пошкоджені зображення/етикетки. Я шукаю дисбаланс даних та упередження. Зазвичай я також звертаю увагу на свій власний процес класифікації даних, який натякає на види архітектур, які ми з часом вивчимо. Як приклад - чи достатньо місцевих особливостей, чи нам потрібен глобальний контекст? Скільки існує варіацій та у якій формі це приймається? Яка варіація хибна і може бути попередньо оброблена? Чи має значення просторове положення чи ми хочемо його усереднити? Наскільки важливі деталі і як далеко ми можемо дозволити собі зменшити вибірку зображень? Наскільки шумними є ярлики?

Крім того, оскільки нейронна мережа є фактично стисненою/скомпільованою версією вашого набору даних, ви зможете переглянути свої (помилкові) прогнози у вашій мережі та зрозуміти, звідки вони можуть надходити. І якщо ваша мережа дає вам прогноз, який, здається, не відповідає тому, що ви бачили в даних, щось вимкнено.

Отримавши якісний сенс, також є гарною ідеєю написати якийсь простий код для пошуку/фільтрування/сортування за тим, що ви думаєте (наприклад, за типом мітки, розміром анотацій, кількістю анотацій тощо) та візуалізувати їх розподіл і відхилення вздовж будь-якої осі. Особливо майже завжди виявляються деякі помилки в якості даних або попередній обробці.

2. Налаштуйте наскрізний скелет навчання/оцінки + отримайте німі базові лінії

Тепер, коли ми зрозуміли наші дані, чи можемо ми дістатись до нашої надзвичайної багатомасштабної ASPP FPN ResNet та розпочати навчання чудових моделей? Точно ні. Це шлях до страждань. Наш наступний крок - створити повний скелет навчання + оцінювання та завоювати довіру до його правильності за допомогою серії експериментів. На цьому етапі найкраще вибрати якусь просту модель, яку ви не могли якось зіпсувати - наприклад лінійний класифікатор або дуже крихітний ConvNet. Ми хочемо тренувати його, візуалізувати втрати, будь-які інші показники (наприклад, точність), моделювати прогнози та проводити низку експериментів з абляцією з явними гіпотезами.

Поради та підказки для цього етапу:

3. Надмірність

На цьому етапі ми повинні добре розуміти набір даних, і ми маємо повну підготовку + оціночний конвеєр. Для будь-якої даної моделі ми можемо (відтворювано) обчислити метрику, якій ми довіряємо. Ми також озброєні нашими результатами щодо незалежного від вхідного рівня базового рівня, виконанням кількох безглуздих базових ліній (нам краще перемогти їх), і ми маємо грубе відчуття продуктивності людини (ми сподіваємось досягти цього). Зараз встановлено сцену для повторення на хорошій моделі.

Підхід, який я люблю застосовувати до пошуку хорошої моделі, складається з двох етапів: спочатку отримати модель, достатньо велику, щоб вона могла переобладнати (тобто зосередити увагу на втраті тренувань), а потім регулювати її належним чином (відмовитися від деяких втрат під час навчання, щоб покращити втрату під час перевірки). Причиною, що мені подобаються ці два етапи, є те, що якщо ми не можемо досягти низького рівня помилок з будь-якою моделлю взагалі, це може знову вказувати на деякі проблеми, помилки або неправильну конфігурацію.

Кілька порад та підказок для цього етапу:

4. Регулярно

В ідеалі, ми зараз знаходимося в тому місці, де маємо велику модель, яка підходить як мінімум для навчального набору. Зараз настав час його регулювати та отримати певну точність перевірки, відмовившись від частини точності навчання. Деякі поради та підказки:

отримати більше даних

Нарешті, щоб отримати додаткову впевненість у тому, що ваша мережа є розумним класифікатором, я люблю візуалізувати ваги першого рівня мережі та гарантувати, що ви отримуєте гарні краї, які мають сенс. Якщо ваші фільтри першого шару виглядають як шум, тоді щось може бути вимкнено. Подібним чином активації всередині мережі іноді можуть відображати дивні артефакти та натякати на проблеми.

5. Мелодія

Тепер ви повинні бути «в курсі» з вашим набором даних, вивчаючи широкий простір моделей для архітектур, які досягають низьких втрат під час перевірки. Кілька порад та підказок для цього кроку:

випадковий пошук по сітці. Для одночасного налаштування декількох гіперпараметрів може здатися спокусливим використовувати пошук по сітці, щоб забезпечити охоплення всіх налаштувань, але майте на увазі, що замість цього найкраще використовувати випадковий пошук. Інтуїтивно це пов’язано з тим, що нейронні мережі часто набагато чутливіші до одних параметрів, ніж інші. У межі, якщо параметр a має значення, але змінюється b не має ефекту, тоді ви б скоріше взяли вибірку a більше, ніж у кількох фіксованих точках кілька разів.
оптимізація гіперпараметрів. Навколо є велика кількість вигадливих наборів інструментів для оптимізації байєсових гіперпараметрів, і кілька моїх друзів також повідомили про успіх з ними, але мій особистий досвід полягає в тому, що сучасний підхід до вивчення приємного та широкого простору моделей та гіперпараметрів полягає у використанні стажиста:). Жартую.

6. Вичавити сік

Знайшовши найкращі типи архітектур та гіперпараметри, ви все ще можете скористатися ще кількома хитрощами, щоб вичавити останні шматочки соку з системи:

ансамблі. Ансамблі моделей - це майже гарантований спосіб отримати 2% точності на чому-небудь. Якщо ви не можете дозволити собі обчислення під час тесту, перегляньте свій ансамбль у мережі, використовуючи темні знання.
залиште це тренуванням. Я часто бачив людей, які спокушаються припинити навчання моделей, коли втрата валідації, здається, вирівнюється. З мого досвіду, мережі продовжують тренуватися неінтуїтивно довго. Одного разу під час зимових канікул я випадково покинув тренування з моделей, а коли повернувся в січні, це була SOTA (“сучасний рівень”).

Висновок

Після того, як ви потрапите тут, у вас будуть всі складові успіху: Ви глибоко розумієте технологію, набір даних та проблему, ви створили всю інфраструктуру навчання/оцінки та досягли високої впевненості в її точності, і Ви досліджували дедалі більш складні моделі, покращуючи продуктивність способами, якими ви передбачали кожен крок. Тепер ви готові прочитати багато робіт, спробувати велику кількість експериментів і отримати свої результати SOTA. Удачі!