Ось усе, що вам потрібно знати про кодування категоріальних даних (за допомогою коду Python)

Огляд

  • Зрозумійте, що таке категоріальне кодування даних
  • Вивчіть різні техніки кодування та коли їх використовувати

Вступ

Ефективність моделі машинного навчання залежить не тільки від моделі та гіперпараметрів, а й від того, як ми обробляємо та подаємо до моделі різні типи змінних. Оскільки більшість моделей машинного навчання приймають лише числові змінні, попередня обробка категоріальних змінних стає необхідним кроком. Нам потрібно перетворити ці категоріальні змінні в числа, щоб модель могла зрозуміти та витягти цінну інформацію.

методів

Типовий вчений-дослідник витрачає 70 - 80% свого часу на очищення та підготовку даних. А перетворення категоріальних даних - це неминуча діяльність. Це не тільки підвищує якість моделі, але й допомагає покращити розробку характеристик. Тепер питання в тому, як нам діяти далі? Який метод категоричного кодування даних нам слід використовувати?

У цій статті я розповім про різні типи категоріальних методів кодування даних із реалізацією в Python.

Якщо ви хочете вивчити поняття науки про дані у відеоформаті, перегляньте наш курс - Вступ до науки про дані

Зміст

  • Що таке категоричні дані?
  • Кодування етикетки або звичайне кодування
  • Одне гаряче кодування
  • Фіктивне кодування
  • Кодування ефекту
  • Двійкове кодування
  • Кодування BaseN
  • Кодування хешу
  • Цільове кодування

Що таке категоричні дані?

Оскільки ми будемо працювати над категоріальними змінними в цій статті, ось коротке оновлення того ж із кількома прикладами. Категоричні змінні зазвичай представляються у вигляді "рядків" або "категорій" і мають кінцеве число. Ось кілька прикладів:

  1. Місто, де живе людина: Делі, Мумбаї, Ахмедабад, Бангалор тощо.
  2. Кафедра, в якій працює людина: Фінанси, Людські ресурси, ІТ, Виробництво.
  3. Найвищий ступінь, яку має людина: середня школа, диплом, бакалавр, магістр, доктор філософії.
  4. Оцінки студента: A +, A, B +, B, B- тощо.

У наведених вище прикладах змінні мають лише певні можливі значення. Крім того, ми бачимо, що існує два типи категоричних даних-

  • Звичайні дані: Категорії мають властивий порядок
  • Номінальні дані: Категорії не мають властивого порядку

У звичайних даних, кодуючи, слід зберігати інформацію про порядок надання категорії. Як і у наведеному вище прикладі, найвищий ступінь, який має людина, дає важливу інформацію про її кваліфікацію. Ступінь є важливою характеристикою для вирішення питання про те, чи підходить людина на посаду чи ні.

Під час кодування номінальних даних ми повинні враховувати наявність або відсутність функції. У такому випадку поняття порядку немає. Наприклад, місто, в якому живе людина. Для даних важливо зберегти місце проживання людини. Тут у нас немає порядку чи послідовності. Рівно, якщо людина живе в Делі чи Бангалорі.

Для кодування категоріальних даних ми маємо пакет python category_encoders. Наступний код допомагає легко встановити.

Кодування етикетки або звичайне кодування

Ми використовуємо цей метод категоріального кодування даних, коли категоріальна ознака є порядковою. У цьому випадку важливим є збереження замовлення. Отже, кодування повинно відображати послідовність.

У кодуванні міток кожна мітка перетворюється на ціле число. Ми створимо змінну, яка містить категорії, що відповідають освітній кваліфікації людини.

Одне гаряче кодування

Ми використовуємо цей метод категоричного кодування даних, коли ознаки номінальні (не мають жодного порядку). В одному гарячому кодуванні для кожного рівня категоріальної функції ми створюємо нову змінну. Кожна категорія відображається з двійковою змінною, що містить або 0, або 1. Тут 0 означає відсутність, а 1 - наявність цієї категорії.

Ці нещодавно створені двійкові функції відомі як Фіктивні змінні. Кількість фіктивних змінних залежить від рівнів, наявних у категоріальній змінній. Це може здатися складним. Візьмемо приклад, щоб краще це зрозуміти. Припустимо, у нас є набір даних із категорією тварина, в якій є різні тварини, такі як Собака, Кішка, Вівця, Корова, Лев. Тепер нам доведеться одноразово кодувати ці дані.

Після кодування у другій таблиці ми маємо фіктивні змінні, кожна з яких представляє категорію в ознаці Animal. Тепер для кожної наявної категорії ми маємо 1 у стовпці цієї категорії та 0 для інших. Давайте подивимося, як реалізувати одноразове кодування в python.

Тепер перейдемо до іншої дуже цікавої та широко використовуваної техніки кодування, тобто манекенного кодування.

Фіктивне кодування

Фіктивна схема кодування схожа на одноразове кодування. Цей метод категоріального кодування даних перетворює категоріальну змінну у набір двійкових змінних (також відомих як фіктивні змінні). У випадку одноразового кодування для N категорій змінної використовується N двійкових змінних. Фіктивне кодування - це невелике покращення в порівнянні з гарячим кодуванням. Фіктивне кодування використовує функції N-1 для представлення N міток/категорій.

Щоб краще це зрозуміти, давайте подивимося на зображення нижче. Тут ми кодуємо одні й ті самі дані, використовуючи як гаряче кодування, так і фіктивні методи кодування. У той час як one-hot використовує 3 змінні для представлення даних, тоді як фіктивне кодування використовує 2 змінні для кодування 3 категорій.

Давайте реалізуємо це на python.

Тут, використовуючи аргумент drop_first, ми представляємо першу мітку Бангалор, використовуючи 0.

Недоліки одноразового та фіктивного кодування

Один гарячий кодер та фіктивний кодер - це дві потужні та ефективні схеми кодування. Вони також дуже популярні серед дослідників даних, але можуть бути не такими ефективними, коли-

  1. У даних присутня велика кількість рівнів. Якщо в такій ситуації в змінній об’єкта є кілька категорій, нам потрібна така ж кількість фіктивних змінних для кодування даних. Наприклад, стовпець із 30 різними значеннями потребуватиме 30 нових змінних для кодування.
  2. Якщо в наборі даних є кілька категоріальних ознак, трапиться подібна ситуація, і знову ми матимемо кілька двійкових ознак, кожна з яких представляє категоріальну ознаку та їх кілька категорій, наприклад, набір даних, що має 10 або більше категоріальних стовпців.

В обох вищевказаних випадках ці дві схеми кодування вносять розрідженість у набір даних, тобто кілька стовпців, що мають 0, а деякі з них мають 1. Іншими словами, він створює кілька фіктивних функцій у наборі даних без додавання великої кількості інформації.

Крім того, вони можуть призвести до манекена змінної пастки. Це явище, де особливості сильно корелюють. Це означає, що, використовуючи інші змінні, ми можемо легко передбачити значення змінної.

Через значне збільшення набору даних кодування уповільнює вивчення моделі разом із погіршенням загальної продуктивності, що в підсумку робить модель обчислювально дорогою. Крім того, під час використання деревних моделей ці кодування не є оптимальним вибором.

Кодування ефекту:

Цей метод кодування також відомий як Кодування відхилення або Кодування суми. Кодування ефекту майже схоже на фіктивне кодування, з невеликою різницею. При фіктивному кодуванні ми використовуємо 0 та 1 для представлення даних, але фактично кодування ми використовуємо три значення, тобто 1,0 та -1.

Рядок, що містить лише 0 в фіктивному кодуванні, кодується як -1 в кодуванні ефекту. У прикладі фіктивного кодування місто Бангалор за індексом 4 було закодовано як 0000. Тоді як фактично кодування воно представлене -1-1-1-1.

Давайте подивимося, як ми реалізуємо це в python-

Кодування ефектів - це вдосконалена техніка. Якщо вам цікаво дізнатись більше про кодування ефектів, зверніться до цієї цікавої статті.

Хеш-кодер

Щоб зрозуміти кодування хешу, необхідно знати про хешування. Хешування - це перетворення введення довільного розміру у вигляді значення фіксованого розміру. Ми використовуємо алгоритми хешування для виконання операцій хешування, тобто для генерації хеш-значення вхідних даних. Крім того, хешування є одностороннім процесом, іншими словами, не можна генерувати оригінальні дані із представлення хешу.

Хешування має кілька додатків, таких як пошук даних, перевірка пошкодження даних, а також у шифруванні даних. У нас є декілька хеш-функцій, наприклад, Дайджест повідомлень (MD, MD2, MD5), Функція безпечного хешу (SHA0, SHA1, SHA2) та багато іншого.

Подібно до одноразового кодування, кодер Hash представляє категоріальні особливості, використовуючи нові розміри. Тут користувач може визначити кількість розмірів після перетворення за допомогою n_компонент аргумент. Ось що я маю на увазі - Функція з 5 категоріями може бути представлена ​​за допомогою N нових функцій аналогічно, функція зі 100 категоріями також може бути трансформована за допомогою N нових функцій. Чи не звучить це дивовижно?

За замовчуванням використовується кодер хешування md5 алгоритм хешування, але користувач може передавати будь-який вибраний ним алгоритм. Якщо ви хочете вивчити алгоритм md5, я пропоную цей документ.

Оскільки хешування перетворює дані в менші розміри, це може призвести до втрати інформації. Ще одна проблема, з якою стикається кодер хешування, - зіткнення. Оскільки тут велика кількість об’єктів зображена в менших розмірах, отже, кілька значень можуть бути представлені одним і тим же хеш-значенням, це відоме як зіткнення.

Більше того, кодування хешування було дуже успішним у деяких змаганнях Kaggle. Чудово спробувати, якщо набір даних має високі особливості.

Двійкове кодування

Бінарне кодування - це поєднання хеш-кодування та одноразового кодування. У цій схемі кодування категоріальна ознака спочатку перетворюється на числову за допомогою порядкового кодера. Потім числа перетворюються в двійкове число. Після цього двійкове значення ділиться на різні стовпці.

Бінарне кодування працює дуже добре, коли існує велика кількість категорій. Наприклад, міста країни, де компанія постачає свою продукцію.

Бінарне кодування - це ефективна в пам’яті схема кодування, оскільки вона використовує менше функцій, ніж одноразове кодування. Крім того, це зменшує прокляття розмірності для даних з високою потужністю.

Кодування N-коду

Перш ніж заглибитися в кодування BaseN, спробуємо спочатку зрозуміти, що тут є?

У системі числівників основа або радіус - це кількість цифр або комбінація цифр і букв, що використовуються для представлення цифр. Найпоширенішою базою, яку ми використовуємо у своєму житті, є 10 або десяткова система, оскільки тут ми використовуємо 10 унікальних цифр, тобто від 0 до 9, щоб представити всі числа. Ще однією широко використовуваною системою є двійкова система, тобто основа - 2. Вона використовує 0 та 1, тобто 2 цифри, щоб виразити всі числа.

Для двійкового кодування базовим є 2, що означає перетворення числових значень категорії у відповідну двійкову форму. Якщо ви хочете змінити схему кодування бази, ви можете використовувати кодер Base N. У випадку, коли категорій більше, а двійкове кодування не здатне обробляти розмірність, ми можемо використовувати більшу базу, таку як 4 або 8.

У наведеному вище прикладі я використовував основу 5, також відому як система Quinary. Це схоже на приклад двійкового кодування. Хоча двійкове кодування представляє ті самі дані за допомогою 4 нових функцій, кодування BaseN використовує лише 3 нові змінні.

Отже, техніка кодування BaseN додатково зменшує кількість функцій, необхідних для ефективного представлення даних та покращення використання пам'яті. Базою за замовчуванням для бази N є 2, що еквівалентно двійковому кодуванню.

Цільове кодування

Цільове кодування - це байсівська техніка кодування.

Байєсові кодери використовують інформацію із залежних/цільових змінних для кодування категоріальних даних.

У цільовому кодуванні ми обчислюємо середнє значення цільової змінної для кожної категорії та замінюємо змінну категорії середнім значенням. У випадку категоріальних цільових змінних, задня ймовірність цілі замінює кожну категорію.

Ми виконуємо цільове кодування лише для даних поїздів та кодуємо тестові дані, використовуючи результати, отримані з навчального набору даних. Хоча, дуже ефективна система кодування, вона має наступне питань відповідальний за погіршення роботи моделі-

  1. Це може призвести до витоку цілі або переобладнання. Для вирішення проблеми переобладнання ми можемо використовувати різні методи.
    1. У кодуванні, що залишає одне, поточне цільове значення зменшується від загального середнього значення цілі, щоб уникнути витоку.
    2. В іншому методі ми можемо ввести певний гауссовий шум у цільову статистику. Значення цього шуму є гіперпараметром для моделі.
  2. Друге питання, з яким ми можемо зіткнутися, - неправильний розподіл категорій у даних поїздів та випробувань. У такому випадку категорії можуть приймати крайні значення. Тому цільові засоби для категорії змішуються із граничним середнім значенням цілі.

Кінцева примітка

Підводячи підсумок, кодування категоріальних даних є неминучою частиною розробки особливостей. Важливіше знати, яку схему кодування ми повинні використовувати. Беручи до уваги набір даних, з яким ми працюємо, та модель, яку ми збираємось використовувати. У цій статті ми бачили різні методи кодування, а також їх проблеми та відповідні випадки використання.

Якщо ви хочете дізнатись більше про роботу з категоріальними змінними, зверніться до цієї статті-

Якщо у вас є якісь коментарі, будь ласка, зв'яжіться зі мною в коментарях нижче.

Ви також можете прочитати цю статтю в нашому мобільному додатку