Підсиліть свою модель класифікації зображень

Хитрощі для підвищення точності вашого класифікатора

Адітя Мішра

14 травня 2019 · 7 хв читання

Класифікація зображень вважається майже вирішеною проблемою. Забавна частина - це коли вам доводиться використовувати всю свою хитрість, щоб отримати додаткові 1% точності. Я зіткнувся з такою ситуацією, коли взяв участь у виклику класифікації сцен Intel, організованому Analytics Vidhya. Мені надзвичайно сподобалось змагання, коли я намагався витягти всі соки з моєї моделі глибокого навчання. Нижче наведені методи можуть бути застосовані до будь-якої сучасної проблеми класифікації зображень.

Проблема полягала в класифікації даного зображення на 6 категорій

Ми були гі в ен

25 тис зображення з широкого кола природних сцен з усього світу

Це техніка послідовного зміни розміру всіх зображень під час навчання CNN на менші або більші розміри зображень. Прогресивна зміна розміру коротко описана в його приголомшливому курсі фастай «Практичне глибоке навчання для програмістів». Чудовим способом використання цієї техніки є підготовка моделі з меншим розміром зображення, скажімо, 64x64, а потім використання ваг цієї моделі для підготовки іншої моделі на зображеннях розміром 128x128 тощо. Кожна великомасштабна модель включає в свою архітектуру попередні шари та ваги меншого масштабу.

Бібліотека фастай - це потужна бібліотека глибокого навчання. Якщо команда FastAI знаходить особливо цікаву статтю, вона перевіряє її на різних наборах даних і визначає, як її налаштувати. Після успіху він включається в їх бібліотеку та стає доступним для користувачів. Бібліотека містить багато вбудованих сучасних технологій (SOTA). Побудований за типом піторхи, fastai має відмінні параметри за замовчуванням для більшості, якщо не всіх завдань. Деякі з методів є

Коефіцієнт циклічного навчання
Навчання в одному циклі
Поглиблене вивчення структурованих даних

Перевіряючи доступні стандартні набори даних, я натрапив на набір даних Places365. Набір даних Places365 містить 1,8 мільйона зображень із 365 категорій сцен. Набір даних, наданий у завданні, був дуже схожий на цей набір даних, тому модель, навчена на цьому наборі даних, вже вивчила особливості, які відповідають нашій власній проблемі класифікації. Оскільки категорії в нашій задачі були підмножиною набору даних Places365, я використав модель ResNet50, ініційовану вагами places365.

Модельні ваги були доступні як ваги піторхи. Наведена нижче функція утиліти допомогла нам належним чином завантажити дані у програму CNN Learner від Fastai.

Змішане збільшення - це тип збільшення, коли ми формуємо нове зображення за допомогою зваженої лінійної інтерполяції двох існуючих зображень. Ми беремо два зображення і робимо їх лінійну комбінацію з точки зору тензорів цих зображень.

λ випадково відбирається з бета-розподілу. Незважаючи на те, що автори статті пропонують використовувати λ = 0,4, значення за замовчуванням у бібліотеці fastai встановлено на 0,1

Швидкість навчання є одним з найважливіших гіперпараметрів для навчання нейронних мереж. fastai має метод виявити відповідну початкову швидкість навчання. Ця техніка називається циклічною швидкістю навчання, коли ми проводимо випробування з нижчою швидкістю навчання і збільшуємо її експоненціально, фіксуючи втрати в процесі. Потім ми складаємо графік втрат щодо рівня навчання та вибираємо рівень навчання там, де втрата є найвищою.

Бібліотека також автоматично обробляє стохастичний градієнтний спуск із перезапуском (SGDR). У SGDR швидкість навчання скидається на початку кожної епохи до початкового вибраного значення, яке зменшується протягом епохи, як при косинусному відпалі. Основна перевага цього полягає в тому, що, оскільки швидкість навчання скидається на початку кожної епохи, той, хто навчається, може вистрибнути з місцевих мінімумів або сідлової точки, в яку він може застрягти.

GAN були представлені Ян Гудфеллоу в 2014 році. GAN - це глибокі архітектури нейронних мереж, що складаються з двох мереж, що протистоять одна одній проти іншої. GAN можуть імітувати будь-який розподіл даних. Вони можуть навчитися генерувати дані, подібні до вихідних даних, у будь-яких зображеннях домену, мові, тексті тощо. Ми використовували реалізацію Wasserstein GAN fast.ai для створення більше навчальних зображень.

GAN включають навчання двох нейронних мереж, одна називається генератором, яка генерує нові екземпляри даних, тоді як інша, дискримінатор, оцінює їх на достовірність, вона вирішує, чи кожен екземпляр даних належить до власне набору навчальних даних чи ні. Детальніше про це можна дізнатися тут.

Перший крок до навчання нейронної мережі - це взагалі не торкатися коду нейронної мережі, а натомість почати з ретельного перевірки ваших даних. Цей крок є критичним. Я люблю витрачати багато часу (вимірюється в одиницях годин), перевіряючи тисячі прикладів, розуміючи їх розподіл та шукаючи закономірності.

- Андрей Карпатій

Як зазначає Андрій Карпаті, «Розслідування даних» є важливим кроком. Під час дослідження даних я виявив, що було кілька зображень, які містили 2 або більше класів.

Використовуючи попередньо навчену модель, я прогнозував усі дані тренувань. Потім відкидали ті зображення, прогнози яких були невірними, але оцінка ймовірності була більше 0,9. Це були зображення, які модель явно неправильно класифікувала. Заглибившись у це, я виявив, що етикеткою ці зображення були неправильно позначені.

Я також вилучив ті зображення із навчального набору, для яких вірогідність прогнозування знаходилася в межах від 0,5 до 0,6, теорія полягає в тому, що на зображенні може бути більше 1 класу, тому модель присвоїла дещо рівні ймовірності кожному з їх. Після перегляду цих зображень теорія врешті виявилася істинною

fast.ai надає зручний віджет “Віджет для очищення зображень”, що дозволяє очистити та підготувати дані для вашої моделі. ImageCleaner призначений для очищення зображень, які не належать до вашого набору даних. Він відображає зображення поспіль і дає можливість видалити файл із вашої файлової системи.

Збільшення часу випробування передбачає створення ряду різних версій оригінального зображення та передачу їх через модель. Потім розраховується середній вихідний показник з різних версій і надається як кінцевий вихідний результат для зображення.

Раніше застосовувався подібний прийом, який називався тестуванням 10 урожаїв. Вперше я прочитав про техніку 10 обрізань у роботі ResNet. Техніка 10-кадрування передбачає обрізання вихідного зображення вздовж чотирьох кутів і один раз уздовж центру, даючи 5 зображень. Повторюючи те саме для зворотного, ви отримуєте ще 5 зображень, загалом 10 зображень. Проте збільшення часу випробування швидше, ніж 10-урожайна техніка

Ансамблювання в машинному навчанні - це техніка використання декількох алгоритмів навчання для отримання кращих результатів прогнозування, ніж це може бути досягнуто одним алгоритмом. Найкраще працює ансамбль

Складові моделі мають різну природу. Наприклад, поєднання ResNet50 та InceptionNet було б набагато кориснішим, ніж комбінування мережі ResNet50 та ResNet34, оскільки вони різні за своєю природою
Складові моделі мають нижчу кореляцію
Зміна навчального набору для кожної з моделей; щоб було більше варіацій

У цьому випадку я зібрав передбачення з усіх моделей, вибравши максимальний клас. Якщо є більше, ніж один клас, який має максимальну кількість випадків, я випадковим чином вибираю один із класів.

Публічний лідер - 29 місце (0,962)

Приватна таблиця лідерів - 22 місце (0,9499)