Найкращий спосіб очистити та нормалізувати великий обсяг даних, покладаючись на алгоритм узгодження рядків

Зараз я працюю над проектом моделювання даних у рамках свого університетського літнього проекту. Дані клієнта потребують великої кількості очищення, оскільки низка стовпців покладається на людські введення та має вільний текст.

Для прикладу в стовпці Назва підприємства є кілька записів для однієї компанії. Для "Hugo Boss" це включає "Hugo Bos", "Huggo Boss", "Hugo Boss Ltd".

Я потенційно міг би пройти кожен рядок і визначити всі використані значення та створити карту для кожного запису, однак враховуючи, що я маю справу з 1 мільйоном записів, це дуже трудомістко і не дуже ідеально.

Чи знають люди про вихідний код такої/подібної реалізації? Я розглядав алгоритм узгодження, проте вони покладаються на попередньо обчислений шаблон. Які інші алгоритми узгодження або техніки машинного навчання я можу використовувати для розробки автоматизованого процесу, який очищав би дані, тобто поєднувати всі різні імена з одним іменем.

Будь-яка допомога буде вдячна.

4 відповіді 4

Це дослідницьке поле називається "Збіг даних" або "Зв’язок записів".

Існує дуже гарна книга опитувань, якими ви можете скористатися Пітер Крістен. Він також заглиблюється в моделі машинного навчання та як покращити їх від базового підходу, як прості відстані рядків (як вже пропонувались інші відповіді).

Щоб дати вам фору, ви можете спробувати обчислити n-грами символів ваших заголовків.

Для n = 3 і Hugo Boss ви отримаєте

Тепер ви можете обчислити подібність жаккарда між двома наборами цих ngram.

Ось, наприклад, між Hugo Boss та Huggo Boss:

Якщо ви не хочете йти шляхом реалізації всіх цих речей самостійно, використовуйте Lucene. Це також дуже швидко і масштабується до мільярдів документів.

"Hugo Boss", сюди входять "Hugo Bos", "Huggo Boss", "Hugo Boss Ltd". Все вищезазначене матиме однакові значення soundex (фонетичний алгоритм), за винятком останнього з "LTD".

Ви можете підібрати soundex до назв компаній. Це повинно працювати на "Hugo Boss", "Hugo Bos" та "Huggo Boss". Однак "Hugo Boss Ltd" не збігатиметься з іншими через LTD наприкінці. Ця техніка добре працювала для нечіткого збігу, де я працюю, і результати були корисними при порівнянні імен та прізвищ для встановлення ідентичності.

Майте на увазі, що soundex не буде працювати для таких речей, як номери соціального страхування. Він має більш суворий домен порівняно з мірою відстані, такою як відстань редагування.

Можливо, ви також можете позбутися таких речей, як "Ltd", "LLC", "Corp", які є загальними для назв компаній у вашому наборі даних. Це допомогло б рамці зіставлення Soundex, оскільки вона скорочує довжину рядків.

Крім того, ви можете порівняти літери ngrams, як рекомендував Томас у своїй відповіді на посилання на запис, і це спростило б кількість ngrams для тестування.

Ось алгоритм NYSIIS:

Алгоритм, як описано в Система ідентифікації та розвідки штату Нью-Йорк:

Пакети Soundex можна знайти на багатьох мовах програмування високого рівня. В пітон Ви можете спробувати нечіткий пакет:

Ви можете вводити та збігати ngrams або повні імена.

Нарешті, ви можете використовувати ім'я режиму в даних або будь-який інший метод для нормалізації поля імені.