Кроки для ефективного очищення текстових даних (з тематичним дослідженням за допомогою Python)

Вступ

Часи, коли можна було отримувати дані у табличних таблицях, справді позаду. Хвилинка мовчання для даних, що знаходяться в кишенях електронних таблиць. Сьогодні понад 80% даних є неструктурованими - вони або присутні в силосах даних, або розкидані по цифрових архівах. Дані створюються під час розмови - від кожної розмови, яку ми проводимо в соціальних мережах, до кожного вмісту, створеного з джерел новин. Для того, щоб отримати будь-яке значуще ефективне розуміння з даних, важливо знати, як працювати з ними в його неструктурованому вигляді. Як науковий співробітник даних в одній з найбільш швидкозростаючих фірм, що займається прийняттям рішень, мій хліб і масло походить від отримання значущого розуміння з неструктурованої текстової інформації.

python

Одним із перших кроків у роботі з текстовими даними є їх попередня обробка. Це важливий крок до того, як дані будуть готові до аналізу. Більшість доступних текстових даних мають дуже неструктурований і шумний характер - щоб досягти кращого розуміння або побудувати кращі алгоритми, необхідно грати з чистими даними. Наприклад, дані соціальних медіа вкрай неструктуровані - це неформальне спілкування - друкарські помилки, неправильна граматика, використання сленгу, наявність небажаного вмісту, як-от URL-адреси, стоп-слова, вирази тощо є звичними підозрюваними.

Тому в цьому блозі я обговорюю ці можливі шумові елементи та те, як ви можете їх покроково очистити. Я пропоную способи очищення даних за допомогою Python.

Як типову ділову проблему припустимо, що вас цікавить: які особливості iPhone є більш популярними серед шанувальників. Ви витягли думки споживачів, пов’язані з iPhone, і ось твіт, який ви отримали:

“Я люблю своє &, яке вбудовується в вихідні дані. Таким чином, необхідно позбутися цих сутностей. Один із підходів полягає в тому, щоб безпосередньо видалити їх за допомогою використання конкретних регулярних виразів. Інший підхід полягає у використанні відповідних пакетів та модулів (наприклад, htmlparser з Python), які можуть перетворити ці сутності на стандартні теги html. Наприклад:

Фрагмент:

Вихід:

Фрагмент:

Результат:

Фрагмент:

Результат:

Фрагмент:

Результат:

Фрагмент:

Результат:

Остаточний очищений твіт:

>> “Я люблю свій iphone, і ти чудове яблуко. Дисплей чудовий, такий щасливий! ",