Гаряче кодування, мультиколінеарність та фіктивна пастка

У цій статті йдеться про фіктивну пастку змінних, що випливає із проблеми мультиколінеарності

Крішна Кумар Махто

8 липня 2019 · 11 хв читання

Поки що кожна нова тема машинного навчання, яку я взяв, мала щось таке, чого я ніколи раніше не бачила. Але це були не тільки невидимі теми, але й теми, які я колись пережив, щось прослизнули мені в голову. Dummy Variable Trap - одна з таких деталей, про яку я зовсім забув, що вона існує, поки не повернулася до створення класифікатора за 3–4 місяці до цього.

кришна

Перш ніж почати з точного вмісту манекен-змінної пастки, ось кілька термінів, з якими нам потрібно бути ознайомленими. Формальні визначення можна погуглити, тому я надам неофіційний опис, якого має бути достатньо для контексту цієї статті.

Категоричні змінні

Категоричні змінні - це ті, які можуть приймати значення з кінцевого набору. Для таких змінних значення, які вони приймають, можуть мати внутрішнє упорядкування (наприклад, швидкість:). Такі змінні називаються звичайними категоріальними змінними. З іншого боку, деякі категоріальні змінні можуть не мати внутрішнього впорядкування (наприклад, Gender:). Такі категоріальні змінні називаються номінальними категоріальними змінними.

Якщо ви знаєте загальну практику кодування категоріальних змінних у числа, ви знаєте, що часто пропонується їх кодування з одним гарячим кодуванням. Цьому є дві причини:

  1. Більшість алгоритмів машинного навчання не можуть працювати безпосередньо з категоріальними змінними, їх потрібно перетворити в числа.
  2. Навіть якщо ми знайдемо спосіб безпосередньої роботи з категоріальними змінними, не перетворюючи їх у числа, наша модель має тенденцію до мови, якою ми користуємось. Наприклад, у завданні класифікації тварин, якщо мітки є, то використання такого методу маркування навчить нашу модель прогнозувати мітки лише англійською мовою, що накладе лінгвістичне обмеження на можливе застосування моделі.

Для того, щоб їх обійти, ми можемо закодувати значення категоріальних змінних до чисел, як показано нижче:

Випадок 1:

Порядкова категоріальна змінна Швидкість (як цитується вище) може кодуватися як:

Випадок 2:

Для завдання класифікації тварин (наведеного вище) мінлива мітка, яка є номінальною категоріальною змінною, може бути закодована як:

З цим є одна головна проблема - мітки у проблемі класифікації тварин не повинні кодуватися до цілих чисел (як ми це робили вище), оскільки це забезпечить очевидно неправильне природне впорядкування: "щур" інтуїтивно це розуміє. Якщо ми введемо ці цифри безпосередньо в модель, ці величини, ймовірно, вплинуть на функцію витрат/збитків. Нам потрібно моделювати це наше розуміння математично. Одне гаряче кодування - це те, як ми це робимо.

Швидкість - це порядкова змінна. Ми можемо стверджувати, що співвідношення: „низький” низький, „середній” та „високий” має. У використанні 1, 2 і 3 немає нічого особливого. Іншими словами, ми не знаємо, наскільки швидкість «середня» більша, ніж швидкість «низька», і наскільки мала вона порівняно з «високою» швидкістю. Різниця між цими ярликами може потенційно вплинути на модель, яку ми тренуємо. Отже, ми можемо захотіти також гаряче кодувати змінну «швидкість».

На цьому етапі, я сподіваюся, ми розуміємо, про що категоричні змінні, і чому ми хотіли б їх гаряче кодувати.

Мультиколінеарність

Мультиколінеарність виникає, коли дві або більше незалежних змінних (також ознак) у наборі даних співвідносяться між собою. Існує декілька методів, за допомогою яких ми можемо виміряти ступінь та напрямок кореляції для двовимірних випадків (більше інформації про міри кореляції), тоді як мультиколінеарність, як правило, вимірюється за допомогою коефіцієнта інфляції дисперсії (більше інформації про міри мультиколінеарності). У двох словах, мультиколінеарність існує в наборі даних, коли незалежні змінні (майже) лінійно пов'язані між собою.

Такі випадки, як показано на рис. 1., називаються "Ідеальна мультиколінеарність". Подібним чином, ми також маємо випадки Недосконалої мультиколінеарності, в яких одна або декілька дуже лінійних взаємозв’язків можуть викликати наше занепокоєння. Вони безпосередньо впливають на аналіз лінійної регресії (для отримання додаткової інформації про це зверніться до цих приміток до лекцій). Однак ми будемо обговорювати їх вплив з точки зору будь-якого загального алгоритму машинного навчання.

На даний момент, я сподіваюся, ми розуміємо, що таке мультиколінеарність.

OneHotEncoding у Python

Перш ніж перейти до заключної частини цієї статті, давайте подивимося, як ми можемо кодувати категоріальні змінні.

One-hot-encoder повертає вектор для кожного унікального значення категоріального стовпця. Кожен такий вектор містить лише одне «1», тоді як усі інші значення у векторі «0» (див. Рис. 4 нижче), тому назва one-hot-encoder.

Можливо, також повинні бути пакети мовою на ваш вибір, але оскільки я використовую Python для всіх матеріалів, пов’язаних з машинним навчанням та наукою даних, я включаю лише фрагменти з консолі Python. У наступному обговоренні я процитую бібліотеку панд Python за її популярним псевдонімом «pd» та numpy як «np».

Я використовую саморобний об’єкт pd.DataFrame, який виглядає так:

«Швидкість» - це категоріальна змінна, тоді як «числовий» стовпець - категорія, що не є категоріальною.

Припустимо, що ми працюємо над проектом, і ми вирішили одноразово гаряче кодувати стовпець «швидкість».

Спосіб 1: pd.get_dummies

pd.get_dummies (документація) повертає новий фрейм даних, який містить стовпці з одним гарячим кодуванням. Ми можемо помітити, що не всі стовпці були закодовані. Це пов’язано з тим, що якщо в pd.get_dummies не передано жодних стовпців, щоб визначити, які стовпці потрібно гаряче кодувати, за замовчуванням він бере стовпці з типом даних ‘object’. Потім він кодує їх і повертає новий фрейм даних новими стовпцями, які замінюють старий категоріальний стовпець. На рис. 3, ми бачимо, що стовпець "швидкість" має тип "об'єкт". Рис. 4. показує, що цей стовпець більше не існує у повернутому фреймі даних і був замінений новими стовпцями. Ми також можемо помітити, що `` низький '' відображений у векторі: низький -> [0, 1, 0], і подібним чином, середній -> [0, 0, 1] і високий -> [1, 0, 0] . Зверніть увагу, що кожен вектор містить лише одне «1». Також зверніть увагу, що кожен вектор є тривимірним. Це тому, що „швидкість” має три унікальні значення. Насправді, кількість розмірів векторів, що гарячі, дорівнює кількості унікальних значень, які категоріальний стовпець займає у наборі даних. Тут кодування здійснено таким чином, що 1 на першому місці вектора означає «швидкість = висока», 1 на другому платі означає «швидкість = низька» тощо.

Спосіб 2: sklearn.preprocessing.OneHotEncoder

Я вважаю за краще використовувати sklearn.preprocessing.OneHotEncoder замість pd.get_dummies Це тому, що sklearn.preprocessing.OneHotEncoder повертає об'єкт класу sklearn.preprocessing.OneHotEncoder. Ми можемо помістити цей об’єкт у навчальний набір, а потім використати той самий об’єкт для перетворення тестового набору. З іншого боку, pd.get_dummies повертає фрейм даних з кодуваннями на основі значень у фреймі даних, який ми йому передаємо. Це може бути добре для швидкого аналізу, але для розширеного проекту з побудови моделей, де ви тренуєтесь на навчальному наборі і пізніше будете тестувати на тестовому наборі, я б запропонував використовувати sklearn.preprocessing.OneHotEncoder.

Використання sklearn.preprocessing.OneHotEncoder не таке просте, як використання pd.get_dummies. Це ми можемо побачити на рис. 5 нижче.

Ви могли помітити, що ми вперше здійснили цілочисельне кодування категоріального стовпця за допомогою LabelEncoder. Це тому, що OneHotEncoder вимагає, щоб категоріальні стовпці містили числові мітки. Методи придатності, а також перетворення вимагають передачі об'єктів np.array з фігурою (m, n). Нарешті, метод fit повертає об'єкт OneHotEncoder, який розміщений на переданих йому даних. Процес тривалий, але в підсумку ви отримуєте встановлений об’єкт, який можна використовувати пізніше на тестовому наборі. Scikit-learn поставляється з комбінованою версією для методів fit та transform- fit_transform, що допомагає зменшити рядок або два з вашого коду (див. Документацію).

Фіктивна змінна пастка

Фіктивна пастка змінної виявляється безпосередньо з одного гарячого кодування, застосованого до категоріальних змінних. Як вже обговорювалося раніше, розмір одноразових векторів дорівнює кількості унікальних значень, які займає категоріальний стовпець, і кожен такий вектор містить у собі рівно одне «1». Це поглинає мультиколінеарність у наш набір даних. З кодованого набору даних на рис. 4 (що еквівалентно закодованому набору даних на рис. 5), ми можемо спостерігати наступний лінійний зв'язок (рис. 6):

6 - випадок ідеальної мультиколінеарності. Вектори, які ми використовуємо для кодування категоріальних стовпців, називаються «фіктивними змінними». Ми мали намір вирішити проблему використання категоріальних змінних, але потрапили в пастку проблеми мультиколінеарності. Це називається фіктивною пасткою змінних.

Як зазначалося раніше, це безпосередньо впливає на аналіз лінійної регресії, оскільки лінійна регресія передбачає відсутність мультиколінеарності в наборі даних. Однак це також створює деякі інші проблеми в задачах машинного навчання. Скажімо, ми тренуємо модель логістичної регресії на наборі даних. Ми очікуємо, що наша модель вивчить ваги для наступного рівняння:

Зокрема, щодо функцій, які ми маємо в наборі даних, наведені нижче ваги, яким навчиться логістична регресія:

І вектор ознак X це:

Очевидно, що саме потужність експоненціальної функції у знаменнику сигмовидної функції насправді впливає на значення y_hat і містить піддаються тренуванню ваги. Цей вираз насправді розширюється до:

З відносин на рис. 6, ми можемо виразити будь-яку з трьох незалежних змінних через інші дві, давайте візьмемо speed_low у LHS і виразимо це через speed_medium та speed_high:

Як ми вже обговорювали раніше, це має пряме значення для проблеми лінійної регресії. Отже, далі йде підсумок питань, загальний для всіх алгоритмів.

Оскільки одноразове кодування безпосередньо викликає ідеальну мультиколінеарність, ми вилучаємо один із стовпців із кодованих функцій. Наприклад, у цьому випадку ми можемо відмовитись від speed_medium, але вибір є абсолютно довільним.

Нижче описано, як ми можемо з цим впоратися (скинувши один із закодованих стовпців):

  1. Коли ми використовуємо pd.get_dummies, ми можемо передати додатковий аргумент drop_first = True (документація), щоб скинути перший новий стовпець, який ми отримуємо після кодування (a.k.a., перша фіктивна змінна) (рис. 7):

Порівняйте повернутий кадр даних на рис. 7 з результатом, який ми отримали на рис. 4. Ми виявили, що speed_high випадає із закодованого кадру даних. Не використовуючи drop_first = True змусить sklearn використовувати призначення за замовчуванням для цього параметра, яке є False.

2. Коли ми використовуємо sklearn.preprocessing.OneHotEncoder і хочемо скинути один із нових стовпців, ми передаємо аргумент drop = ’first’ конструктор класу OneHotEncoder (документація). Однак, схоже, це не підтримує всі версії sklearn (я отримав повідомлення про помилку, оскільки моя версія sklearn.preprocessing.OneHotEncoder не підтримує параметр 'drop'), тому, можливо, доведеться оновити пакет python, перш ніж ви зможете його використовувати у вашій системі. Хоча ви можете вручну скинути одну з фіктивних змінних, написавши вручну один або два рядки (рис. 8), може бути важко відстежувати зміни, внесені у ваш фрейм даних, у випадках, коли у вас більше одного категоріального стовпця і занадто багато категорії в кожному категоріальному стовпці для роботи.

Кадр даних, повернутий за допомогою перетворення (або, fit_transform), додає нові стовпці перед усіма іншими стовпцями (рис. 8). Отже, щоб скинути перший стовпець, ми можемо використовувати нарізування масиву, як показано на рис. 8. Однак робити це може стати незграбним, як уже зазначалося.

Висновок

Сподіваюся, ця стаття змогла дати вичерпний опис мультиколінеарності, одноразового кодування та фіктивної змінної пастки. Стаття повністю ґрунтується на моєму особистому досвіді з фактами, взятими з надійних джерел (посилання, вже згадані поряд із кожним таким поняттям). Отже, будь ласка, коментуйте нижче, якщо ви виявите будь-які розбіжності в статті. Ваш відгук допоможе мені написати та описати краще. Будемо раді почути Вас.