Вступ до автокодерів.

Автокодери - це некерована техніка навчання, в якій ми використовуємо нейронні мережі для завдання представницьке навчання. Зокрема, ми розробимо нейромережеву архітектуру таким чином, щоб накласти вузьке місце в мережі, що змушує a стиснута подання знань вихідного вкладу. Якби вхідні функції були незалежними одна від одної, це стиснення та подальша реконструкція були б дуже складним завданням. Однак, якщо в даних існує якась структура (тобто кореляція між вхідними ознаками), цю структуру можна вивчити і, отже, використовувати під час примусового введення через вузьке місце мережі.

left right

Як візуалізується вище, ми можемо взяти маркований набір даних і сформулювати його як контрольовану навчальну задачу, завдання якої - вивести $ \ hat x $, a реконструкція вихідного вводу $ x $. Цю мережу можна навчити, мінімізуючи помилку відновлення $ \ left (\ right) $, яка вимірює різницю між нашим початковим введенням та подальшою реконструкцією. Вузьке місце - це ключовий атрибут нашого мережевого дизайну; без присутності інформаційного вузького місця наша мережа могла б легко навчитися просто запам’ятовувати вхідні значення, передаючи ці значення по мережі (візуалізується нижче).

Вузьке місце обмежує обсяг інформації, яка може пройти повну мережу, змушуючи навчене стиснення вхідних даних.

Примітка: Насправді, якби ми побудували лінійну мережу (тобто без використання нелінійних функцій активації на кожному шарі), ми спостерігали б подібне зменшення розмірності, як це спостерігається в PCA. Див. Обговорення цього питання Джеффрі Хінтоном тут.

Ідеальна модель автокодера врівноважує наступне:

  • Чутливий до входів, достатній для точного побудови реконструкції.
  • Настільки нечутливий до входів, що модель не просто запам’ятовує чи перенавантажує дані навчання.

Цей компроміс змушує модель підтримувати лише зміни в даних, необхідних для реконструкції вхідних даних, не тримаючись за надмірності всередині вхідних даних. У більшості випадків це включає побудову функції збитків, де один термін спонукає нашу модель бути чутливою до вхідних даних (тобто. Втрати при реконструкції $ \ left (\ right) $), а другий термін не стримує запам'ятовування/переобладнання (тобто доданий регулятор ).

Зазвичай ми додаємо параметр масштабування перед терміном регуляризації, щоб ми могли регулювати компроміс між двома цілями.

У цій публікації я обговорюватиму деякі стандартні архітектури автокодерів для накладання цих двох обмежень та налаштування компромісу; у наступному дописі я обговорюватиму варіаційні автокодери, що спирається на обговорені тут концепції, щоб надати більш потужну модель.

Неповний автокодер

Найпростіша архітектура побудови автокодера полягає у обмеженні кількості вузлів, присутніх у прихованих рівнях (мережах) мережі, обмежуючи обсяг інформації, яка може протікати через мережу. Штрафуючи мережу відповідно до помилки реконструкції, наша модель може дізнатися найважливіші атрибути вхідних даних та як найкраще відновити вихідний вхід із "закодованого" стану. В ідеалі це кодування буде вивчити та описати приховані атрибути вхідних даних.

Оскільки нейронні мережі здатні вивчати нелінійні взаємозв'язки, це можна розглядати як більш потужне (нелінійне) узагальнення PCA. У той час як PCA намагається виявити нижню розмірну гіперплощину, яка описує вихідні дані, автокодери здатні вивчати нелінійні різноманітності (колектор визначається простими словами як суцільна, не перетинається поверхня). Різниця між цими двома підходами наведена нижче.

Для даних із більшими розмірами автокодери здатні вивчити складне представлення даних (колектора), яке можна використовувати для опису спостережень у меншій розмірності та відповідно декодувати у вихідному просторі введення.

Неповний автокодер не має чіткого терміну регуляризації - ми просто тренуємо свою модель відповідно до втрат на реконструкцію. Таким чином, наш єдиний спосіб переконатись, що модель не запам’ятовує вхідні дані, це гарантувати, що ми достатньо обмежили кількість вузлів у прихованих шарах.

Для глибоких автокодерів ми також повинні знати про потужність наших моделей кодерів та декодерів. Навіть якщо "шар вузького місця" - це лише один прихований вузол, наша модель все одно може запам'ятовувати навчальні дані за умови, що моделі кодера та декодера мають достатню здатність вивчати якусь довільну функцію, яка може зіставити дані в індекс.

Враховуючи той факт, що ми хотіли б, щоб наша модель виявляла приховані атрибути в наших даних, важливо переконатися, що модель автокодера не просто вивчає ефективний спосіб запам’ятовувати дані навчання. Подібно до контрольованих проблем навчання, ми можемо застосовувати різні форми регуляризації мережі, щоб заохотити добрі властивості узагальнення; ці методи обговорюються нижче.

Розріджені автокодери

Розріджені автокодери пропонують нам альтернативний метод введення інформаційного вузького місця, не вимагаючи зменшення кількості вузлів на наших прихованих шарах. Навпаки, ми побудуємо свою функцію втрат таким чином, щоб карати активації всередині шару. Для будь-якого даного спостереження ми заохочуватимемо нашу мережу вивчати кодування та декодування, яке покладається лише на активацію невеликої кількості нейронів. Варто зазначити, що це інший підхід до регуляризації, оскільки ми зазвичай регулюємо ваги мережі, а не активації.

Універсальний розріджений автокодер візуалізується нижче, де непрозорість вузла відповідає рівню активації. Важливо зазначити, що окремі вузли тренованої моделі, які активуються, залежать від даних, різні входи призведуть до активації різних вузлів через мережу.

Одним із результатів цього факту є такий ми дозволяємо нашій мережі сенсибілізувати окремі вузли прихованого шару до конкретних атрибутів вхідних даних. Тоді як недоповнений автокодер буде використовувати всю мережу для кожного спостереження, розріджений автокодер буде змушений вибірково активувати регіони мережі залежно від вхідних даних. Як результат, ми обмежили можливості мережі запам’ятовувати вхідні дані, не обмежуючи можливості мережі витягувати функції з даних. Це дозволяє нам розглядати приховане стан і регуляризацію мережі окремо, так що ми можемо вибрати приховане представлення стану (тобто кодування розмірності) відповідно до того, що має сенс, враховуючи контекст даних, одночасно накладаючи регуляризацію обмеженням розрідженості.

Є два основні способи, за допомогою яких ми можемо накласти це обмежене обмеження; обидва передбачають вимірювання активацій прихованого шару для кожної тренувальної партії та додавання певного терміна до функції втрат з метою покарання надмірних активацій. Ці терміни:

  • L1 Регулювання: Ми можемо додати термін до нашої функції втрат, який карає абсолютне значення вектора активацій $ a $ в шарі $ h $ для спостереження $ i $, масштабоване параметром налаштування $ \ lambda $.

  • KL-розбіжність: По суті, KL-дивергенція є мірою різниці між двома розподілами ймовірностей. Ми можемо визначити параметр розрідженості $ \ rho $, який позначає середню активацію нейрона над набором зразків. Це очікування можна обчислити як $ _ j> = \ frac \ sum \ limit_ \ left (x \ right)> \ right]> $, де індекс $ j $ позначає конкретний нейрон у шарі $ h $, підсумовуючи активації для $ m $ тренувальних спостережень, позначених як $ x $. По суті, обмежуючи середню активацію нейрона над колекцією зразків, ми заохочуємо нейрони стріляти лише для підмножини спостережень. Ми можемо описати $ \ rho $ як розподіл випадкових величин Бернуллі, так що ми можемо використати розбіжність KL (розгорнуте нижче) для порівняння ідеального розподілу $ \ rho $ з спостережуваними розподілами по всіх прихованих вузлах шару $ \ hat \ rho $.

Примітка: Розподіл Бернуллі - це "розподіл ймовірностей випадкової величини, який приймає значення 1 з імовірністю $ p $ і значення 0 з імовірністю $ q = 1-p $". Це цілком відповідає встановленню ймовірності спрацьовування нейрона.

Розбіжність KL між двома розподілами Бернуллі можна записати як $ \ sum \ limit _ ^ >> _ j >>>> + \ left (\ right) \ log \ frac> _ j >>> $. Цей термін втрат візуалізується нижче для ідеального розподілу $ \ rho = 0,2 $, що відповідає мінімальному (нульовому) штрафу в цей момент.

Шумові автокодери

Наразі я обговорював концепцію навчання нейронної мережі, де вхідні та вихідні дані однакові, і нашій моделі доручено якомога точніше відтворити вхідні дані, проходячи через якесь інформаційне вузьке місце. Нагадаємо, що я згадував, що ми хотіли б, щоб наш автокодер був досить чутливим, щоб відтворити початкове спостереження, але досить нечутливим до навчальних даних, щоб модель засвоювала узагальнююче кодування та декодування. Іншим підходом до розробки узагальнюючої моделі є незначне пошкодження вхідних даних, але при цьому збереження непошкоджених даних як наш цільовий результат.

При такому підході, наша модель не може просто розробити картографію, яка запам’ятовує навчальні дані, оскільки наші вхідні та цільові результати вже не однакові. Швидше, модель засвоює векторне поле для відображення вхідних даних у напрямку до багатовимірного різноманіття (нагадаю з моєї попередньої графіки, що колектор описує область високої щільності, де зосереджені вхідні дані); якщо цей колектор точно описує природні дані, ми фактично "скасували" додатковий шум.

Наведений малюнок візуалізує векторне поле, описане шляхом порівняння реконструкції $ x $ з початковою величиною $ x $. Жовті точки представляють приклади тренувань до додавання шуму. Як бачите, модель навчилася регулювати пошкоджений вхід в сторону вивченого колектора.

Варто зазначити, що це векторне поле, як правило, добре поводиться лише в регіонах, де модель спостерігала під час навчання. У районах, віддалених від природного розподілу даних, помилка реконструкції є одночасно великою і не завжди вказує у напрямку справжнього розподілу.

Контрактні автокодери

Можна було б цього очікувати для дуже подібних входів вивчене кодування також буде дуже подібним. Ми можемо явно навчити нашу модель, щоб це було так, вимагаючи, щоб похідна активацій прихованого шару мала відносно вхідного сигналу. Іншими словами, для невеликих змін на вході ми все одно повинні підтримувати дуже подібний закодований стан. Це дуже схоже на шумопоглинаючий автокодер в тому сенсі, що ці невеликі збурення на вході по суті вважаються шумом і що ми хотіли б, щоб наша модель була стійкою проти шуму. Іншими словами (наголос на моєму), "шумоізолюючі автокодери змушують функцію відновлення (тобто декодер) протистояти невеликим, але фінітним розмірам збурень вхідного сигналу, тоді як контрактивні автокодери роблять функцію вилучення ознак (тобто, кодер) протистояти нескінченно малим збуренням введення. "

Оскільки ми прямо заохочуємо нашу модель вивчити кодування, в якому подібні входи мають подібні кодування, ми по суті змушуємо модель навчитися контракт сусідство входів у меншу околицю виходів. Зверніть увагу, як нахил (тобто похідна) реконструйованих даних по суті дорівнює нулю для локальних околиць вхідних даних.

Ми можемо досягти цього, побудувавши термін втрат, який карає великі похідні наших активацій прихованого шару відносно прикладів навчання вводу, по суті караючи випадки, коли незначна зміна вводу призводить до великої зміни простору кодування.

У вигадливіших математичних термінах ми можемо створити наш термін втрат регуляризації як квадратичну норму Фробеніуса $$ матриці Якобіана $> $ для активацій прихованого шару щодо вхідних спостережень. Норма Фробеніуса є по суті нормою L2 для матриці, а матриця Якобіана просто представляє всі часткові похідні першого порядку векторнозначної функції (у цьому випадку ми маємо вектор навчальних прикладів).

Для спостережень $ m $ та $ n $ вузлів прихованого шару ми можемо обчислити ці значення наступним чином.

= [δ a 1 (h) (x) δ x 1 ⋯ δ a 1 (h) (x) δ xm ⋮ ⋱ ⋮ δ an (h) (x) δ x 1 ⋯ δ an (h) (x) δ xm]

Написавши коротше, ми можемо визначити нашу повну функцію втрат як

де $ a_i ^ \ left (x \ right)> $ визначає поле градієнта наших активацій прихованого шару відносно вхідних $ x $, підсумованих за всіма прикладами навчання $ i $.

Резюме

Автокодер - це нейромережева архітектура, здатна виявляти структуру в даних з метою розробки стиснутого подання вхідних даних. Існує багато різних варіантів загальної архітектури автокодера з метою забезпечити, щоб стиснене подання представляло значущі атрибути вихідних даних; як правило, найбільшою проблемою при роботі з автокодерами є отримання вашої моделі насправді вивчення значущого та узагальнюючого прихованого просторового подання.

Оскільки автокодери вчаться стискати дані на основі атрибутів (тобто кореляцій між вхідним вектором ознак), виявлених з даних під час навчання, ці моделі, як правило, здатні лише відновити дані, подібні до класу спостережень, модель яких спостерігала під час навчання.

Застосування автокодерів включають:

  • Виявлення аномалії
  • Заглушення даних (наприклад, зображення, аудіо)
  • Розфарбовування зображень
  • Пошук інформації