Вивчення специфічного китайського кодування для фонетичної подібності

Марина Данилевський, IBM

Виконання розумової гімнастики з метою проведення фонетичного розрізнення слів та фраз, таких як "я чую" на "я тут" або "я не можу так, але тонни" на "я не можу пришити гудзики", знайоме кожному, хто стикався з автоматично виправленими текстовими повідомленнями, мізерними публікаціями в соціальних мережах тощо. Хоча на перший погляд може здатися, що фонетичну подібність можна кількісно визначити лише для чутних слів, ця проблема часто присутня у суто текстових просторах.

Підходи ШІ для синтаксичного аналізу та розуміння тексту вимагають чистого введення, що, в свою чергу, передбачає необхідну кількість попередньої обробки вихідних даних. Неправильні омофони та синофони, незалежно від того, використовуються вони помилково чи жартують, повинні бути виправлені, як і будь-яка інша форма орфографічної чи граматичної помилки. У наведеному вище прикладі точне перетворення слів "чути" та "так" на їх фонетично подібні правильні відповіді вимагає чіткого відображення фонетичної подібності між парами слів.

Більшість алгоритмів фонетичної подібності мотивовано випадками використання англійської мови та розроблено для індоєвропейських мов. Однак багато мов, наприклад китайська, мають різну фонетичну структуру. Мовний звук китайського ієрогліфа представлений одним складом у піньїні, офіційній системі романізації китайської мови. Склад піньїні складається з: (необов'язкового) ініціалу (наприклад, "b", "zh" або "x"), кінцевого (наприклад, "a", "ou", "wai" або "yuan") і тон (яких п’ять). Прив'язка цих звуків мови до англійських фонем призводить до досить неточного подання, а використання індоєвропейських алгоритмів фонетичної подібності ще більше ускладнює проблему. Наприклад, два добре відомі алгоритми, Soundex і Double Metaphone, індексують приголосні при ігноруванні голосних (і не мають поняття тонів).

Оскільки склад піньїні представляє в середньому сім різних китайських ієрогліфів, переважання омофонів навіть більше, ніж в англійській. Тим часом використання піньїні для створення тексту надзвичайно поширене в мобільних програмах та додатках для чату, як при використанні мовлення в текст, так і при безпосередньому наборі тексту, оскільки практичніше вводити склад піньїні та вибирати призначений символ. В результаті, вхідні помилки на основі фонетики надзвичайно поширені, що підкреслює необхідність дуже точного алгоритму фонетичної подібності, на який можна покластися, щоб виправити помилки.

Мотивований цим випадком використання, який узагальнено для багатьох інших мов, які нелегко відповідають фонетичній формі англійської мови, ми розробили підхід до вивчення n-вимірного фонетичного кодування для китайської мови. Важливою характеристикою піньїні є те, що три компоненти склад (початковий, кінцевий та тон) слід розглядати та порівнювати незалежно. Наприклад, фонетична схожість фіналів "тобто" та "ue" однакова у парах піньїнів та, незважаючи на різні ініціали. Таким чином, подібність пари складів піньїнь - це сукупність подібності між їх ініціалами, фіналами та тонами.

Однак штучне обмеження простору кодування до низького виміру (наприклад, індексація кожного ініціалу до одного категоріального чи навіть числового значення) обмежує точність фіксування фонетичних варіацій. Тому правильним підходом, керованим даними, є органічне вивчення кодування відповідної розмірності. Модель навчання отримує точні кодування шляхом спільного врахування лінгвістичних характеристик піньїня, таких як місце артикуляції та методи вимови, а також високоякісні анотовані набори навчальних даних.

Демонстрація покращення в 7,5 рази порівняно з існуючими підходами до фонетичної подібності

Отже, вивчені кодування можна використовувати, наприклад, для прийняття слова як вхідного сигналу та повернення ранжированого списку фонетично подібних слів (класифікованих за зменшенням фонетичної подібності). Рейтинг є важливим, оскільки додаткові програми не будуть масштабуватися, щоб врахувати велику кількість кандидатів, що замінюють кожне слово, особливо при запуску в режимі реального часу. Як реальний приклад, ми оцінили наш підхід до формування рейтингового списку кандидатів для кожного з 350 китайських слів, взятих із набору даних соціальних мереж, і продемонстрували покращення в 7,5 разів порівняно з існуючими підходами до фонетичної подібності.

Ми сподіваємось, що вдосконалення, зроблені цією роботою для відображення фонетичної схожості, специфічної для мови, сприяють підвищенню якості численних багатомовних програм обробки природних мов. Ця робота, яка є частиною проекту IBM Research SystemT, нещодавно була представлена на конференції SIGNLL з обчислювального вивчення природних мов у 2018 році, а попередньо навчена китайська модель доступна для дослідників як ресурс для створення чат-ботів, додатків для обміну повідомленнями, перевірки орфографії та будь-які інші відповідні програми.