[Архівне повідомлення] Нормалізація ваги: ​​проста репараметризація для прискорення навчання глибоких нейронних мереж

Джее Дук Сео

9 лютого 2019 · 4 хв читання

Зверніть увагу, що ця публікація призначена для моїх власних навчальних цілей.

архівована

Зараз → ми нормалізуємо вагу мережі → пришвидшити конвергенцію → не залежить від розміру партії → може застосовуватися в RNN або GAN. (Простий, але потужний метод прискорення конвергенції). → застосовується також у RL.

NN → може тренуватися швидше, коли задіяний коефіцієнт нормалізації → методи оптимізації градієнта першого порядку → залежить від кривизни пейзажу втрат → проблема сідлових точок. (про патологічну кривизну → важкий прогрес у цих ландшафтах). → існує простіший спосіб оптимізації. (пошук хороших шляхів для оптимізації є ключовим напрямком дослідження).

Архітектура мережі відрізняється від завдання до завдання → Поліпшення властивості оптимізації - ще одна ключова область дослідження → вдосконалення методів оптимізації було б дуже корисним. (з використанням методів природного градієнта, можливо, в дорозі.). → стосується матриці Фішера та операції запису. Або змініть, щоб градієнт виглядав як природний градієнт → відбілювання градієнта → припустимо, декорреляція покращує оптимізацію. (нормалізація партії - інший метод). → зменшити зсув коваріації. (натхненний нормалізацією партії) →, але шуму для градієнта немає.

Стандартна NN → множення матриць та нелінійність → загальний підхід. (перепараметризуйте вагу за допомогою нормалізації → шляхом введення V і G.).

Ідея → ідея автора полягає в різниці, оскільки вона репараметризує ваги. Роз'єднання напряму та величини ваги. (існує також метод використання репараметризації журналів, але на практиці не дає хороших результатів).

Використовується SGD →, але щодо v та g →, і цей градієнт можна переписати по-різному, як видно вище. (дуже цікаво). M - матриця проекції → масштабує зважений градієнт → також проектує градієнт з поточного вектора ваги → коваріація градієнта наближається до ідентичності.

Оновлення ортогональне → і норма збільшена за допомогою теореми Піфагора. → масштабований градієнт → самостабілізує свою норму. Це призводить до оптимізації, стійкої до рівня навчання → супер круто → рівень навчання також стабілізується → партійна норма також має такий тип властивості. (проектування градієнта від вектора ваги → шум усувається).

Як це відноситься до BN → коли вхідний сигнал білий, нормалізуючи попередню активацію, це те саме, що нормалізація ваги. (нормування ваг - це дешевша операція обчислення). (також менш шумне оновлення).

BN → може виправити масштаб даних → стійкий до ініціалізації параметрів → норма ваги цього не робить → тому перед тренуванням → ініціалізувати v з міні-пакета. (лише під час ініціалізації, першої ітерації). → функції тепер мають нульове середнє та 1 дисперсію. (Ініціалізація бази даних здається зовсім іншою сферою дослідження). (не стосується RNN або LSTM).

Не масштабує дані →, щоб мати стандартне відхилення одиниці → просто відцентрувати дані. (центрування градієнта → дешева робота → менше шуму під час тренування).