Проблеми з гарячим кодуванням проти фіктивного кодування

Я усвідомлюю той факт, що категоріальні змінні з рівнями k повинні кодуватися змінними k-1 у фіктивному кодуванні (аналогічно для багатозначних категоріальних змінних). Мені було цікаво, скільки проблеми виконує одноразове кодування (тобто використання k змінних замість цього) над фіктивним кодуванням для різних методів регресії, переважно лінійної регресії, покараної лінійної регресії (Lasso, Ridge, ElasticNet) на основі дерева (випадкові ліси, машини для підвищення градієнта).

гарячим

Я знаю, що при лінійній регресії виникають проблеми мультиколінеарності (хоча на практиці я без жодних проблем встановив лінійну регресію за допомогою OHE).

Однак, чи потрібно використовувати фіктивне кодування в усіх з них, і наскільки неправильними будуть результати, якщо використовувати одногаряче кодування?

Я зосереджуюсь на прогнозуванні в регресійних моделях з кількома категоріальними змінними (з високою кардинальністю), тому мене не цікавлять довірчі інтервали.

3 відповіді 3

Проблема представлення категоріальної змінної, яка має $ k $ рівнів зі змінними $ k $ у регресії, полягає в тому, що, якщо модель також має постійний доданок, тоді умови будуть лінійно залежними, а отже, модель буде неможливо ідентифікувати. Наприклад, якщо модель дорівнює $ μ = a_0 + a_1X_1 + a_2X_2 $ і $ X_2 = 1 - X_1 $, то будь-який вибір $ (β_0, β_1, β_2) $ вектора параметра неможливо відрізнити від $ (β_0 + β_2, \; β_1 - β_2, \; 0) $. Отже, хоча програмне забезпечення може бути готовим дати вам оцінки цих параметрів, вони не визначаються однозначно, а отже, ймовірно, не будуть дуже корисними.

Пеналізація зробить модель ідентифікованою, але надлишкове кодування все одно впливатиме на значення параметрів дивними способами, враховуючи вищезазначене.

Ефект надлишкового кодування на дереві рішень (або ансамблі дерев), швидше за все, призведе до надмірної ваги даної функції порівняно з іншими, оскільки вона представлена ​​додатковою надлишковою змінною і, отже, буде вибиратися частіше, ніж в іншому випадку для розпадається.