Алгоритм глибокого навчання вирішує Куб Рубіка швидше, ніж будь-яка людина

Робота - це крок до вдосконалених систем штучного інтелекту, які можуть думати, міркувати, планувати та приймати рішення

З часу свого винаходу угорським архітектором в 1974 році Куб Рубіка насупив брови багатьом, хто намагався його вирішити, але 3D-логічна головоломка не відповідає системі штучного інтелекту, створеній дослідниками з Каліфорнійського університету, Ірвін.

DeepCubeA, алгоритм глибокого підкріплення, запрограмований комп'ютерними вченими та математиками UCI, може знайти рішення за долі секунди, не маючи жодних конкретних знань в області та тренінгів у грі від людей. Це непросте завдання, враховуючи, що куб має шляхи завершення, які налічуються мільярдами, але лише один стан цілі - кожна з шести сторін відображається суцільним кольором - якого, мабуть, неможливо знайти за допомогою випадкових ходів.

У рамках дослідження, опублікованого сьогодні в Nature Machine Intelligence, вчені продемонстрували, що DeepCubeA вирішив 100 відсотків усіх тестових конфігурацій, знайшовши найкоротший шлях до цільового стану близько 60 відсотків часу. Алгоритм також працює на інших комбінаторних іграх, таких як головоломка з розсувними плитками, Lights Out та Sokoban.

"Штучний інтелект може перемогти найкращих у світі шахівників та гравців Go, але деякі складніші головоломки, такі як Куб Рубіка, не вирішувались комп'ютерами, тому ми вважали, що вони відкриті для підходів до штучного інтелекту", - сказав старший автор П'єр Бальді, UCI Заслужений професор інформатики. "Рішення Кубів Рубіка передбачає більш символічне, математичне та абстрактне мислення, тому машина глибокого навчання, яка може зламати таку загадку, наближається до того, щоб стати системою, яка може мислити, міркувати, планувати та приймати рішення".

Дослідникам було цікаво зрозуміти, як і чому ШІ робив свої кроки та скільки часу потрібно для вдосконалення його методу. Вони почали з комп'ютерного моделювання завершеної головоломки, а потім скрембували куб. Як тільки код був на місці та працював, DeepCubeA навчався ізольовано протягом двох днів, вирішуючи все складніші серії комбінацій.

"Він навчився сам по собі", - зазначив Бальді.

Є деякі люди, особливо підлітки, які можуть поспіхом вирішити Куб Рубіка, але навіть вони роблять близько 50 ходів.

"Наш ШІ займає близько 20 ходів, більшу частину часу вирішуючи за мінімальну кількість кроків", - сказав Бальді. "Тут ви можете помітити, що стратегія відрізняється, тому я найкраще припускаю, що міркування ШІ абсолютно відрізняються від людських".

Ветеран-інформатик зазначив, що кінцевою метою таких проектів є побудова наступного покоління систем штучного інтелекту. Знають вони це чи ні, людей щодня торкається штучний інтелект за допомогою таких програм, як Siri та Alexa, та механізмів рекомендацій, що працюють за лаштунками своїх улюблених онлайн-сервісів.

"Але ці системи насправді не розумні; вони крихкі, і ви можете легко їх зламати або обдурити", - сказав Бальді. "Як ми можемо створити вдосконалений ШІ, який буде розумнішим, надійнішим та здатним міркувати, розуміти та планувати? Ця робота є кроком до цієї високої мети".