ДІЄТА: Легке розуміння мови для діалогових систем

Широкомасштабні попередньо навчені мовні моделі продемонстрували вражаючі результати на еталонах розуміння мови, таких як GLUE та SuperGLUE, значно покращившись в порівнянні з іншими методами попередньої підготовки, такими як розподілені подання (GloVe) та суто контрольовані підходи. Ми представляємо архітектуру Dual Intent and Entity Transformer (DIET) та вивчаємо ефективність різних заздалегідь підготовлених подань щодо передбачення намірів та сутності, двох загальних завдань розуміння мови діалогу. . DIET вдосконалює сучасний рівень складних багатодоменних наборів даних NLU і досягає такої ж високої продуктивності в інших простих наборах даних. Дивно, але ми показуємо, що використання чітких попередньо навчених моделей для цього завдання не дає однозначної вигоди, і насправді DIET покращує сучасний стан техніки навіть у чисто контрольованій установці без будь-яких попередньо навчених вбудовувань. Наша найкраща модель перевершує точну настройку BERT і навчається приблизно в шість разів швидше. (читати далі)