Схеми декомпозиції блочного шару для навчання глибоких нейронних мереж

Анотація

Оцінка ваги нейронних мереж глибокого прямого просування (DFNN) базується на вирішенні дуже великої неопуклої задачі оптимізації, яка може мати багато локальних (без глобальних) мінімізаторів, сідлових точок та великих плато. Крім того, час, необхідний для пошуку хороших рішень навчальної проблеми, сильно залежить як від кількості зразків, так і від кількості ваг (змінних). У цій роботі ми показуємо, як методи блочного координатного спуску (BCD) можуть бути плідно застосовані до проблеми оптимізації ваги DFNN та вбудовані в онлайн-рамки, можливо, щоб уникнути поганих стаціонарних точок. Спочатку ми описуємо пакетний метод BCD, здатний ефективно вирішувати труднощі через глибину мережі; то ми далі розширюємо алгоритм, що пропонує онлайн Схема BCD здатна масштабуватися як за кількістю змінних, так і за кількістю вибірок. Ми виконуємо великі чисельні результати на стандартних наборах даних, використовуючи різні глибокі мережі. Ми показуємо, що застосування методів BCD до навчальної проблеми DFNN покращується порівняно зі стандартними пакетними/онлайн-алгоритмами на етапі навчання, гарантуючи також хороші результати узагальнення.

блочного

Це попередній перегляд вмісту передплати, увійдіть, щоб перевірити доступ.

Параметри доступу

Придбайте одну статтю

Миттєвий доступ до повної статті PDF.

Розрахунок податку буде завершено під час оформлення замовлення.

Підпишіться на журнал

Негайний онлайн-доступ до всіх випусків з 2019 року. Підписка буде автоматично поновлюватися щороку.

Розрахунок податку буде завершено під час оформлення замовлення.