i2b2 Проблема ожиріння: не потрібно машинного навчання

У вихідні дні я відвідав семінар із виклику ожиріння i2b2, де найефективніші системи за всіма показниками були в основному власноруч побудовані на основі правил. Папери дали мені відчуття дежавю; вони були не тільки побудовані так само, як експертні системи 1970-х (наприклад, Mycin), вони були спонукані бажанням пояснити висновки. Тобто, клініцисту потрібно буде переглянути висновки машини, і правила легко зрозуміти.

Завданням було класифікувати (анонімізоване) резюме виписки пацієнтів із Центру ваги загальної лікарні Массачусетсу для пацієнтів із ризиком ожиріння або діабету щодо того, чи справді вони страждають ожирінням і чи є у них 15 інших супутніх захворювань, таких як діабет, ішемічна хвороба серця, застійна хвороба серцева недостатність, подагра та апное сну. Ці виписки містять сотні речень і обговорюють все, від сімейної історії та історії хвороби пацієнтів до лабораторних випробувань та списків рецептів.

Найефективніші системи машинного навчання, які розглядали документи як прості мішки слів, були тими, хто вивчав правила, такими як Ripper та дерева рішень. Найкраще працюють лінійні класифікатори, використовуючи декілька верхніх ознак (зазвичай витягуються шляхом вимірювання посилення інформації, що є ентропією класифікації мінус умовна ентропія з урахуванням ознаки).

Що стосується вилучення об’єктів та аналізу документів, зонування дійсно допомогло. Розділ сімейної історії (досить легко витягнутий за цими даними) був загальним джерелом помилково спрацьованих захворювань для наївних систем. Другим важливим кроком було імпортування словників синонімів та абревіатур для наркотиків та хвороб. Для цього ми бачили велике використання таких ресурсів, як UMLS та RxNorm. З огляду на те, що завдання мали категорії так/ні/невідомо, усі очікували, що підходи, такі як NegEx Чепмена, матимуть більший вплив, ніж вони (хоча одна команда отримала більше пробігу, налаштувавши NegEx спеціальним словником для завдання ожиріння).

Усі вони вказують на різницю між цим завданням та іншими завданнями класифікації, такими як загальні настрої, тема, ідентифікація мови - це скоріше проблема вилучення інформації, ніж проблема класифікації повного тексту. У цьому це схоже на орієнтоване на аспекти вилучення настроїв.

Це знищує переважаючу тенденцію в галузі, де нещодавні переможці були вибудовані за триступеневою програмою:

1. збирати і анотувати дані,

2. витягнути особливості з системою, заснованою на правилах, щоб створити векторизоване подання документа, то

3. підходить один або кілька дискримінаційних лінійних класифікаторів (наприклад, SVM, логістична регресія або персептрони).

Це гібридний метод, який справді підриває всі вимоги щодо автоматизації з боку натовпу машинного навчання. Можливо, саме тому сьогодні всі так одержимі адаптацією та навчанням під наглядом. У той же час всі системи, що базуються на правилах, сильно спиралися на етап збору даних, щоб налаштувати свої правила.

Очевидно, що жоден запис на основі машинного навчання (включаючи наш) не витрачав майже достатньо часу на вилучення функцій. Клініка MITER та Mayo використовували існуючі системи вилучення та нормалізації даних Mayo, і результати були досить хорошими, хоча вони не встигали сильно налаштувати ресурси для вирішення цієї проблеми (необхідні знання були досить глибокими та широкими, хоча, як зазначила одна команда повністю доступний в Інтернеті за допомогою пошуку ключових слів).

Я також запропонував Özlem Uzuner (організатору викликів), що ми можемо знову виконати те саме завдання наступного року з черговою передачею даних анотаторами (мій поточний кінь хобі!). Одним з величезних болів для такого роду евал є очищення від анонімності, що робить великі завдання під наглядом проблематичними. Важко також отримати хорошу золоту стандартну угоду та досягти узгодженого стандарту кодування лише з парою анотаторів та вимикачем за один прохід. Я хотів би мати шанс скористатися особливостями виграшних систем і виконати крок (2). Зараз я не можу цього зробити, тому що нам довелося знищити всі дані після семінару через конфіденційність та відповідальність.

Дитячій лікарні Цинциннаті вдалося опублікувати їхні дані кодування ICD-9-CM, що, як мені кажуть, є надзвичайним. Їхній медичний виклик NLP для проведення кодування МКБ-9 рентгенологічних звітів показав подібний зразок результатів із завданням ожиріння i2b2, за винятком вступу UPenn, який посів друге місце після вищезазначеної методології.

Якщо вас цікавить, як у нас вийшло, ми опинилися в середині 28 систем. Декілька швидких і брудних прийомів вилучення особливостей для асоціювання термінів та захворювань наркотиків та розповсюдження заперечення трохи допомогли, як і використання інформаційного збору для вибору особливостей перед тренуванням з регульованою L1 логістичною регресією.