Режим блогу

23 серпня 2016 р. • 5 хвилин читання

Зручні бібліотеки Python для форматування та очищення даних

Реальний світ безладний, і його дані теж. Настільки безладно, що нещодавнє опитування повідомило, що вчені витрачають 60% свого часу на очищення даних. На жаль, 57% з них вважають це найменш приємним аспектом своєї роботи.

Дані очищення можуть зайняти багато часу, але з’явилося багато інструментів, щоб зробити цей важливий обов’язок трохи більш стерпним. Спільнота Python пропонує безліч бібліотек для упорядкування та розбірливості даних - від стилізації DataFrames до анонімізації наборів даних.

Повідомте нас, які бібліотеки вам здаються корисними - ми завжди прагнемо визначити пріоритети, які бібліотеки додати до Mode Python Notebooks.

python
Шкода, що прибирання не так весело для науковців, як для цього маленького хлопця.

Дора призначена для дослідницького аналізу; зокрема, автоматизація найболючіших її частин, таких як вибір та вилучення функцій, візуалізація та, як ви вже здогадалися, очищення даних. Функції очищення включають:

  • Читання даних із відсутніми та погано масштабованими значеннями
  • Внесення відсутніх значень
  • Масштабування значень вхідних змінних

очищувач даних

Сюрприз, сюрприз, datacleaner очищає ваші дані, але лише один раз потрапивши у pandas DataFrame. Від творця Ренді Олсона: "очищувач даних - це не магія, і він не буде приймати неорганізовану крапку тексту і автоматично аналізувати її для вас".

Однак він буде видаляти рядки з відсутніми значеннями, замінювати відсутні значення значенням режиму або медіани для кожного стовпця за колонкою та кодувати нечислові змінні числовими еквівалентами. Ця бібліотека є досить новою, але оскільки DataFrames є фундаментальними для аналізу в Python, варто перевірити.

Створений: Ренді Олсон
Де дізнатись більше: https://github.com/rhiever/datacleaner

PrettyPandas

DataFrames потужні, але вони не створюють таблиць, які б ви хотіли показати своєму начальнику. PrettyPandas використовує API pandas Style для перетворення DataFrames у таблиці, гідні презентацій. Створюйте резюме, додайте стиль та форматуйте номери, стовпці та рядки. Доданий бонус: надійна, проста для читання документація.

табличний

Табуляція дозволяє надрукувати невеликі красиві таблиці лише за допомогою одного виклику функції. Це зручно для того, щоб зробити таблиці більш читабельними за допомогою вирівнювання стовпців за десятковим числом, форматування чисел, заголовків тощо.

Однією з найкрутіших функцій є можливість виведення даних у різноманітних форматах, таких як HTML, PHP або Markdown Extra, так що ви можете продовжувати працювати зі своїми табличними даними іншим інструментом або мовою.

Створений: Сергій Астанін
Де дізнатись більше: https://pypi.python.org/pypi/tabulate

скрубадуб

Науковці даних у таких сферах, як охорона здоров'я та фінанси, регулярно повинні анонімізувати набори даних. scrubadub вилучає особисту інформацію (ІПП) із вільного тексту, наприклад:

  • Імена (власні іменники)
  • Адреси електронної пошти
  • URL-адреси
  • Номери телефонів
  • комбінації ім'я користувача/пароль
  • Імена користувачів Skype
  • Номери соціального страхування

Документація добре показує способи, якими ви можете налаштувати поведінку скрубадуба, наприклад, визначення нових типів ідентифікаційних даних або виключення певних типів ідентифікаційних даних із очищення.

Стрілка

Будемо чесними: робота з датами та часом у Python - це біль. Місцеві часові пояси не розпізнаються автоматично. Для перетворення часових поясів і міток часу потрібно кілька рядків неприємного коду.

Arrow має на меті усунути ці проблеми та усунути прогалини у функціональності, щоб допомогти вам обробляти дати та час із меншим кодом та меншою кількістю імпорту. На відміну від стандартної бібліотеки Python, Arrow за замовчуванням знає часовий пояс та UTC. Ви можете конвертувати часові пояси або аналізувати рядки, використовуючи один рядок коду.

Створений: Кріс Сміт
Де дізнатись більше: http://arrow.readthedocs.io/en/latest/

Красивець

Місія Beautifier проста: очистити та покращити URL-адреси та адреси електронної пошти. Ви можете аналізувати електронні листи за доменом та іменем користувача; URL-адреси за доменом і параметрами (наприклад, UTM або маркери).

ftfy (виправляє текст для вас) приймає погані вихідні дані Unicode хороші Unicode. В основному це виправляє всі непотрібні символи. â € œquotesâ € \ x9d стає "лапками"; ü стає ü; стає. Якщо ви щодня працюєте з текстом, ця бібліотека, як каже один користувач, "зручна штучка магії".

Подальші ресурси для перебігу даних

Ось декілька наших улюблених читань щодо даних обміну/суперечки/очищення.