Вимоги щодо компенсації працівників за допомогою аналітичного аналізу

Опубліковано 16 вересня 2016 р

Аналіз даних, схеми травматизму, сортування, компенсація працівникам

Директор з науки про дані Інна Колишкіна та Актуар схеми в ReturnToWorkSA Іван Лебедєв об'єднують зусилля, щоб пояснити проект, який було здійснено для вивчення корисності розширених можливостей аналізу даних для ReturnToWorkSA.

У 2014 році ReturnToWorkSA розпочав проект з вивчення потенційної корисності розширених можливостей аналізу даних для свого бізнесу.

Метою було спрогнозувати ймовірність того, що вимоги залишатимуться на підтримку доходу протягом одного року або більше з дати подання заявки (надалі ця подія буде називатися «довгостроковою»), використовуючи інформацію, доступну через тринадцять тижнів після подачі заявки.

Подальшою вимогою було те, що модель прогнозування повинна легко інтерпретуватися бізнесом.

В середньому до 13 тижнів після подання претензії більше 80% заявників повернуться на роботу. Решта, мабуть, мали певні бар’єри, що заважали їм відновитись. Ці бар'єри зазвичай пов'язані з важкістю основного медичного стану, психосоціальними факторами, такими як відносини з роботодавцем/роботою, загальна стійкість працівника тощо.

Через 13 тижнів після подання заявки на проживання встановлюється історія, яка включає медичну діагностику та лікування, взаємодію з лікарем загальної практики/спеціалістами, виплати прав тощо. Хоча кожен елемент цих даних може бути не особливо передбачувальним, бізнес-кейс мав на меті перевірити, чи розширені дані аналітика дозволить виявити закономірності та комбінації, які надійно передбачають високу або низьку ймовірність того, що претензія стане довгостроковою.

Виклики

На випадок позову, який стає довгостроковим, впливає багато факторів. Сильна мінливість тривалості позову для даного виду травми та віку проілюстрована на малюнку 1.

працівників

Рисунок 1: Двосторонній аналіз тривалості позову в залежності від віку та характеру травми. Синя крива показує узагальнену адитивну модель (GAM), вписану в дані, а темно-сіра область навколо неї показує відповідну смугу довірчих інтервалів. Чітко видно високий ступінь мінливості для постраждалих працівників одного віку та типу травми.

Особливостями, що суттєво ускладнюють моделювання результатів позову, є розрідженість даних, мультиколінеарність та той факт, що більшість потенційно важливих предикторів (таких як коди TOOCS для характеру травми, розташування тіла тощо) мають велику кількість категорій.

Перед викликами

Система TOOCS має великий розрив між найвищим рівнем (характер групи травм) та найнижчим рівнем (індивідуальний характер травми). Як результат, деякі категорії високого рівня занадто широкі, щоб бути корисними, тоді як деякі категорії низького рівня мають занадто мало підтримки (кількість заявок у наборі даних). Для вирішення цієї ситуації в ієрархії були підняті категорії низького рівня з великою підтримкою, категорії нижчого рівня з малою підтримкою знижені, а категорії низького рівня з малою підтримкою об'єднані з подібними.

Оскільки характер пошкодження та розташування тіла, як очікувалося, були одними з найважливіших предикторів тривалості позову, важливим кроком було їх об'єднання в єдину змінну, щоб зосередитись лише на комбінаціях, які мали місце на практиці.

Нарешті, ми застосували кореляційний аналіз, щоб виявити кластери змінних, які сильно корелювали між собою; змінні, які, як було встановлено, містять надлишкову інформацію, можуть бути вилучені з аналізу без шкоди для точності або достовірності передбачення.

Раннє розчарування

Щоб ефективно оцінити, якої точності можна досягти за допомогою вибраних предикторів, ми застосували три різні методи науки про дані, відомі для вилучення максимальної прогнозної цінності з даних - випадкові ліси, регресія GBM та LASSO.

Результати були єдиними для всіх використовуваних методів і показали, що було пояснено лише 11-13% варіабельності, виміряної за допомогою еквівалентних вимірювань у квадраті.

Сегментації, виконані Деревами умовного висновку, класичними деревами класифікації та регресії та кластерним підходом, послідовно формували лише два основних сегменти претензій з поганим розділенням між ймовірністю того, що претензія стане довгостроковою (Рисунок 2).

Рисунок 2: Початкова сегментація вимог. Поділ між сегментами високого та низького ризику є низьким.

Цей результат явно не відповідав очікуванням бізнесу.

1 Збагачення даних

Цей результат вказував на те, що певні невідомі фактори, виключені з початкової моделі, впливають на результат. Використовуючи дані МСП та зовнішні дослідження для прогнозування тривалості вимог про компенсацію працівникам, ми намагалися збагатити дані додатковою інформацією, зокрема:
• відставання у звітності про претензії;
• інформація про отримане лікування (наприклад, тип відвідувачів, кількість відвідувань, спеціальність постачальника);
• інформація про використання ліків та, зокрема, про те, чи використовувався потужний опіоїд;
• інформація про історію попередніх претензій заявників, включаючи кількість попередніх претензій, тип та характер пошкодження та будь-яку подібність із поточною шкодою

Відбулося значне збільшення частки мінливості, що пояснюється моделлю.
Ми визначили 36 найбільш важливих ознак для класифікації вимог на сегменти з високим та низьким ризиком. Найкращі 12 предикторів показані на малюнку 3.

Малюнок 3: Топ-12 предикторів ризику позову стати довгостроковим. Зелена лінія показує ступінь важливості кожного предиктора на шкалі від 0 до 100.

Побудова остаточної моделі

Бізнес вимагав, щоб ймовірність того, що претензія стане довгостроковою, була виражена у формі зрозумілих ділових правил. Для досягнення цього ми використовували дерева рішень у поєднанні з аналізом правил асоціації.

Остаточна модель дозволяє розподілити претензію до одного з 6 сегментів, показаних на малюнку 4, на основі 36 характеристик та їх комбінацій.

Рисунок 4: Сегментація вимог за кінцевою моделлю

Модель демонструє хороший поділ між сегментами високого ризику (1 і 2) та сегментами низького ризику (5 і 6). Можливість надійно ідентифікувати претензії з високим ризиком стати довготерміновими має чітку ділову цінність, оскільки її можна використовувати для зосередження діяльності з управління справами там, де це найбільш потрібно.

Ключові знання

Хоча можна подумати, що методи, засновані на дереві рішень, можуть працювати з необробленими категоріальними даними і що алгоритм двійкового розбиття автоматично об’єднує невеликі категорії у більші групи, насправді це не так. Наш досвід у цьому та інших проектах полягає в тому, що ретельний огляд, очищення та регулювання категоріальних даних є важливим для побудови гарної моделі прогнозування.

Оцінка критичної ролі знань експертів у бізнесі у досягненні хороших результатів була ще одним ключовим завданням. Завдяки консультаціям з експертами з питань тематики ми змогли визначити, що історія попередніх претензій може бути додана до моделі. Це дозволило нам значно покращити точність прогнозування.

Підхід, який дуже добре працював у цьому проекті, полягав у тому, щоб спочатку зосередитись на досягненні задовільної точності прогнозування, а потім сконцентруватися на розробці остаточної моделі, яка відповідає конкретним вимогам бізнесу. При націлюванні на точність, використовуючи інструменти, які витягують найбільшу кількість прогнозованої сили з даних, ми могли швидко оцінити неадекватний прогнозуючий потенціал початкового набору даних і спрямувати наші зусилля на збагачення даних.

На етапі розробки остаточної моделі ми вже мали визначений набір предикторів, з якими можна було працювати, і ми могли б зосередити наші зусилля на вдосконаленні самої моделі. Слід зазначити, що залежно від бізнес-вимог остаточна модель могла бути розроблена не лише у формі правил прийняття рішень, але й у будь-якій іншій формі (наприклад, GLM), що вимагається бізнесом.

CPD: Члени Інституту актуарії можуть претендувати на два бали CPD за кожну годину читання статей на Actuaries Digital.

Іван Лебедєв

Іван Лебедєв - схематичний актуарій у ReturnToWorkSA. Він має більш ніж 10-річний досвід компенсації працівникам. Він дуже зацікавлений у диверсифікації традиційного актуарного набору інструментів для включення сучасних методів науки про дані.

Інна Колишкіна

Інна Колишкіна - директор відділу наукових досліджень в консалтингових послугах Analytikk. Вона має 20-річний досвід надання ділової інформації з великих організаційних даних, що спеціалізуються на страхуванні та управлінні активами.

Коментарі

- каже Чао Цяо

Чудова стаття! Малюнки 2 і 4 здаються однаковими, хотілося б бачити ступінь вдосконалення від початкової до кінцевої моделі.