Метод кодування наборів клінічних даних за допомогою SNOMED CT

Анотація

Передумови

Протягом останнього десятиліття з'являється все більше літератури про те, як Систематизовану номенклатуру клінічних термінів медицини (SNOMED CT) можна застосовувати та використовувати в різних клінічних умовах. Однак для тих, кому доручено включати SNOMED CT у клінічні програми та словниковий запас своєї організації, існує декілька детальних інструкцій щодо кодування та прикладів, щоб продемонструвати, як це можна зробити та пов'язані з цим проблеми. Ця стаття описує евристичний метод, який може бути використаний для кодування клінічних термінів у SNOMED CT, та ілюстрацію того, як він застосовувався для кодування існуючого набору даних паліативної допомоги.

Методи

Процес кодування включає: ідентифікацію елементів вхідних даних; очищення елементів даних; кодування очищених елементів даних; і експортувати закодовані терміни як набори вихідних термінів. Виходять чотири виходи: еталонний набір SNOMED CT; набір термінології інтерфейсу; Набір розширень SNOMED CT та набір некодуваних термінів.

Результати

Оригінальна база даних паліативної допомоги містила 211 елементів даних, 145 закодованих значень та 37 248 вільних текстових значень. Нам вдалося закодувати

84% термінів, інший

8% вимагають подальшого кодування та перевірки, тоді як терміни, що мали частоту менше п’яти, не кодувались (

Висновки

З пілотного проекту, здається, наш метод кодування SNOMED CT має потенціал стати підходом кодування термінології загального призначення, який можна використовувати в різних клінічних системах.

Передумови

Ця стаття описує евристичний метод, який може бути використаний для кодування клінічних термінів у SNOMED CT, та ілюстрацію того, як він застосовувався для кодування існуючого набору даних паліативної допомоги. Спосіб кодування вперше був розроблений в рамках магістерського проекту і з тих пір був розширений за допомогою кількох невеликих досліджень з різними наборами клінічних даних [7] та інших неопублікованих аналізів. Цей метод був вдосконалений в рамках однорічного пілотного проекту з кодування клінічних термінів з існуючої інформаційної системи паліативної допомоги в канадській організації охорони здоров’я в SNOMED CT.

Фон проекту

Метою проекту "Інформаційна система паліативної допомоги на основі стандартів (PCIS) для медичних служб Альберти, зона Едмонтон" було дослідити прийняття, використання та вплив SNOMED CT. Цілі включали створення підмножини паліативної допомоги SNOMED CT, розширення PCIS за допомогою SNOMED CT та визначення впливу на якість медичної допомоги, включаючи задоволеність лікаря та процеси управління змінами. Оскільки у нас не було заздалегідь визначеного списку термінів для кодування за допомогою SNOMED CT, частиною процесу розробки підмножини паліативної допомоги було вивчення того, які елементи даних в PCIS можуть кодуватися за допомогою SNOMED CT. Оскільки деталі пілотного проекту публікуються деінде, ця стаття зосереджується лише на описі методу кодування, який був використаний для отримання підмножини паліативної допомоги. Цей проект отримав схвалення з питань етики як Регіон охорони здоров’я столиці Едмонтону - Колегія з питань охорони здоров’я з питань охорони здоров’я (Група охорони здоров’я, протокол Pro00005461), так і Колегія з питань етики досліджень людини з Університету Вікторії (протокол 09-182).

Схеми бази даних, допустимі коди та анонімізовані текстові записи були витягнуті з PCIS. PCIS має два поля даних, "діагноз" та "проблема при направленні", які використовуються для кодування клінічних висновків пацієнтів. Існує 20 заздалегідь визначених діагнозів та 14 заздалегідь визначених проблем при перенаправленні, які можна вибрати із списку вибору. Шістнадцять діагнозів стосуються категорій раку (наприклад, "кістка та сполучна тканина", "меланома" та "око, мозок та інші відділи центральної нервової системи"), тоді як чотири стосуються неракових категорій (тобто нервово-м'язових, серцево-легеневих, інфекційні хвороби та інші). Попередньо визначена проблема при направленні включає такі висновки, як "біль", "марення", "нудота/блювота" та "астенія". Будь-які додаткові деталі були записані у вільні текстові поля, позначені як додаткова інформація. Оскільки було лише 34 заздалегідь визначених пунктів списку вибору, переважна більшість цієї інформації була записана як вільний текст. Зразок знімка екрану PCIS наведено на рисунку 1. Для цього пілотного проекту була використана версія міжнародного випуску SNOMED CT від 31 липня 2008 року.

клінічних

Знімок екрана екрана "Деталь справи" Інформаційної системи паліативної допомоги.

Метод

Наш евристичний метод кодування SNOMED CT складається з чотирьох частин: (а) визначення елементів вхідних даних; (b) очищення елементів даних; (c) кодування очищених елементів даних; і (d) експортувати закодовані терміни як набори термінів SNOMED CT. Огляд цього методу наведено на рисунку 2. У процесі кодування використовуються три програмні засоби - алгоритм пакетного узгодження, браузер CliniClue та Microsoft Excel. Алгоритм пакетного узгодження зменшує обсяг ручної роботи за рахунок автоматизації узгодження очищених елементів даних за допомогою SNOMED CT, браузер CliniClue використовується для ручного пошуку понять, тоді як Microsoft Excel використовується для перегляду результатів.

Огляд методу кодування SNOMED CT.

Визначення елементів вхідних даних

Визначення потенційних елементів даних, що кодуються

Першим кроком є ​​визначення потенційних елементів даних у джерелі бази даних для кодування. Існує три типи: елементи даних, закодовані значення та значення вільного тексту. Елементи даних посилаються на назву полів введення або можуть розглядатися як запитання (наприклад, "Діагностика", як у "Який діагноз має пацієнт?"). Відповідь може мати форму закодованих значень або значень вільного тексту. Кодовані значення - це відповіді, які були визначені заздалегідь і можуть бути обрані зі списку вибору (наприклад, "Рак легенів" або "Рак молочної залози"). Якщо у пацієнта є діагноз, який не був визначений заздалегідь, додаткові деталі діагностики можуть бути записані у вільне текстове поле.

Підготовка списку елементів даних

Під час вилучення елементів даних важливо вести аудиторський слід елементів даних, щоб ми могли простежити, звідки походять терміни. Цей аудиторський слід повинен містити назву таблиці, назву елемента даних, тип даних, а також код та опис, якщо це застосовно. Знімки екрана програми, де використовується елемент даних, також були б корисними для розуміння контексту, в якому він використовується.

Витяг елементів даних

Імена елементів даних можна отримати вручну, переглянувши схему бази даних та скопіювавши ім'я кожного елемента даних, або скориставшись програмним додатком для управління базами даних, щоб експортувати схему в текстовий файл або електронну таблицю. Елементи даних у базі даних можна класифікувати як такі, що стосуються клінічних випадків, ідентифікаторів або сліду аудиту. Клінічні зустрічі стосуються таких елементів даних, як ім’я пацієнта, діагноз та стать. Ідентифікатори посилаються на елементи даних, які зазвичай є первинними або зовнішніми ключами таблиць. Аудиторський слід відноситься до таких елементів даних, як інформація про обліковий запис користувача, журнали аудиту, до кого додано чи відредаговано запис та коли він був змінений. Аудиторський шлях може також посилатися на такі елементи даних, як стан кодованого значення, чи воно активне чи ні. Малоймовірно, що ідентифікатори та елементи даних аудиторії аудиту можуть кодуватися, оскільки SNOMED CT не був розроблений для цієї мети.

Витяг кодованих значень

Закодовані значення зазвичай зберігаються в таблицях пошуку. Ці пошуки, як правило, є зовнішніми таблицями в базі даних і є окремими від програми, хоча існують випадки, коли закодовані значення вбудовуються в саме програмне забезпечення. Якщо закодовані значення вбудовані в програмний код, може знадобитися скопіювати кожне закодоване значення вручну, якщо програмне забезпечення не включає функцію експорту. Для таблиць пошуку, які записані в базі даних, залежно від її конструкції, закодовані значення можуть бути записані в одній таблиці або закодовані значення для кожного елемента даних можуть бути в окремих таблицях. Під час вилучення закодованих значень важливо розрізняти код (тобто значення) та опис коду (тобто значення значення). Наприклад, "Чоловічий" - це опис коду і може бути представлений алфавітним кодом "M" або числовим кодом, таким як 1. При кодуванні термінів у SNOMED CT, слід використовувати опис коду, але важливо мати можливість зв’язати опис коду назад із кодом. Кодування закодованих значень за допомогою SNOMED CT можна вважати формою відображення.

Витяг значень вільного тексту

Першим кроком у витяганні значень вільного тексту є визначення вихідної таблиці та імені елемента даних. Не кожен елемент даних із вільним текстом слід витягувати. Наприклад, значення вільного тексту з елементів даних, таких як імена та адреси, не слід витягувати, оскільки вони не можуть бути закодовані в SNOMED CT. Користувачі повинні переглядати записи, щоб визначити, які дані містяться в елементі даних, оскільки це може бути не очевидним, дивлячись лише на ім'я елемента даних. Після того, як елемент даних буде ідентифікований, слід витягти унікальні терміни та скласти таблицю їх частот. Наявність цієї інформації є важливим, оскільки слід докладати більше зусиль на умовах, що часто трапляються.

Збір елементів даних

Після того, як елементи даних будуть ідентифіковані та вилучені з різних джерел даних, їх слід зібрати та відсортувати за частотою. Оскільки очищення та кодування даних є дуже трудомісткими процесами, терміни слід згрупувати за групами за частотою, щоб можна було витратити більше часу на часто зустрічаються умови. Не потрібно очищати кожен термін перед тим, як переходити до етапу кодування, оскільки очищення даних може зайняти багато часу. Комбінації клавіш та уроки, отримані з попередньої партії, слід застосовувати до наступного раунду для поліпшення процесу.

Очищення елементів даних

Процес очищення даних забезпечує узгодженість і точність елементів даних. Після того, як ці терміни очищені, вони по суті представляють термінологію інтерфейсу, яка допомагає "підтримувати взаємодію між постачальниками медичних послуг та комп'ютерними програмами" [8]. Три типи елементів даних вимагають різного обсягу очищення даних. Закодовані значення вимагають мінімального очищення, оскільки їх уже перевірила організація, перш ніж вони додаються як елементи списку вибору. З іншого боку, значення вільного тексту вимагають найбільшого очищення, оскільки часто немає обмежень щодо того, що можна записати. Елементи даних, які потрібно закодувати, також потребують деякого очищення, оскільки в іменах елементів даних можуть використовуватися скорочення або абревіатури, або якщо використовується кілька слів, пробіли видаляються або підкреслення використовуються для розділення слів. Під час очищення елементів даних важливо підтримувати аудиторський слід, щоб мати можливість пов’язати їх із початковим терміном. Див. Малюнок 3 для огляду процесу очищення.

Огляд процесу очищення даних на прикладах.

Розбиття елементів даних

Фільтрування типів даних

SNOMED CT призначений для кодування клінічних зустрічей, але не інших типів даних, таких як імена, дати, цифри та вимірювання. Хоча точну дату в записі пацієнта неможливо закодувати за допомогою SNOMED CT, можливо кодувати цей термін як минулу історію хвороби. Хоча було неможливо кодувати точну дату, наприклад "1 січня 1880 року", можна кодувати дату як минулу історію хвороби, встановивши "408731000 | Часовий контекст (атрибут) |" як "410513005 | У минулому (значення кваліфікатора) |". Рішення щодо кодування дат як минулої історії хвороби має приймати кожна організація індивідуально.

Як такі, ці типи даних слід фільтрувати і не входити до потенційного списку термінів, що підлягають кодуванню. Дані, що виключаються, слід зберігати як частину інформації про походження. Незважаючи на те, що виключені типи даних не можуть бути закодовані в SNOMED CT, можливо, їх можна кодувати за допомогою інформаційної моделі, наприклад, довідкової інформаційної моделі HL7. Розбиття термінів і фільтрація типів даних може зажадати кількох раундів, щоб відфільтрувати всі невідповідні терміни.

Виправлення правопису

Однією з головних перешкод лексичному узгодженню є орфографічні помилки. Усі три типи елементів даних повинні проходити алгоритм корекції орфографії. Індекс слів, знайдений в елементах даних, закодовані значення та значення вільного тексту можна сформувати та порівняти з індексом слів, знайдених у SNOMED CT. Просте порівняння цих покажчиків може швидко звузити потенційно проблемні слова. Елементи даних часто не містять пробілів в своїх назвах або підкреслення використовуються для розділення слів. Наприклад, елемент даних "Ім'я" може бути позначений як "Ім'я", "Ім'я" або "Ім'я". Ці форми зменшать ймовірність пошуку лексичного збігу.

Скорочення та абревіатури

Непослідовне використання скорочень та абревіатур також зменшує успішне лексичне узгодження. Наприклад, "ca" може означати "рак", "карциному" або навіть "кальцій". Організації можуть використовувати скорочення та абревіатури, які розуміються лише на місцях. Необхідно прописати всі скорочення та абревіатури, щоб усунути будь-яку двозначність, а також покращити шанси на пошук лексичних збігів.

Висновок про клінічний контекст

Термінологія початкового інтерфейсу

Потім очищені терміни називаються термінологією "початкового" інтерфейсу, оскільки вони складаються з очищених вихідних термінів з локальної бази даних, які мають бути закодовані в SNOMED CT. Після процесу кодування ми отримаємо "остаточну" термінологію інтерфейсу, яка містить усі бажані терміни, що використовуються клініцистами при введенні даних. Ці бажані терміни можуть включати місцеві терміни очищення (за умови, що процес очищення гарантує, що терміни можуть бути узгодженими або стандартизованими за межами місцевої організації), або їх закодовані терміни SNOMED CT, бажані/синоніми, залежно від уподобань лікаря. Якщо метою є замінити всі місцеві терміни на поняття КНО SNOMED у клінічній системі, то ця термінологія інтерфейсу може служити історичним показником для полегшення переходу.

1.1 Кодування очищених елементів даних

Наступним кроком є ​​процес кодування. На рисунку 4 показано цей процес на блок-схемі. Першим кроком є ​​пошук лексичної відповідності за допомогою пакетного режиму. Якщо знайдено збіг і концепція активна, термін може кодуватися заздалегідь узгодженою концепцією. Якщо концепція неактивна, буде зроблена спроба знайти активну концепцію (тобто статус концепції "поточний") через історичні взаємозв'язки. Якщо за допомогою пакетного режиму збігу не знайдено, буде здійснено ручний пошук. Якщо термін не може бути підібраний за допомогою попередньо скоординованої концепції, буде зроблена спроба представити термін з кількома концепціями або посткоординацією. Якщо жоден скоординований вираз не може адекватно представити цей термін, він вважається некодируемым.

Блок-схема процесу кодування.

Лексичне узгодження термінів

Лексичне узгодження рядків - це наш метод пошуку понять SNOMED CT. Є два етапи. По-перше, це пакетний режим, коли елементи даних автоматично збігаються за допомогою алгоритму пакетного узгодження. По-друге, це ручний режим, коли всі видатні неперевершені терміни поєднуються вручну за допомогою браузера CliniClue.

Пакетний режим

Метою використання алгоритму пакетного узгодження є впорядкування процесу пошуку потенційних концепцій SNOMED CT, оскільки пошук кожного терміна вручну є трудомістким процесом. Усі результати алгоритму збігу пакетів повинні бути переглянуті вручну, щоб переконатися, що обрані відповідні концепції.

Ручний режим

Терміни, які неможливо закодувати за допомогою пакетного режиму, шукаються вручну за допомогою браузера CliniClue. Коли проводиться ручний пошук, синоніми та інші фрази часто використовуються, намагаючись знайти відповідні поняття SNOMED CT. Наприклад, SNOMED CT не включає поняття "немеланома шкіри". Натомість можуть бути використані інші синоніми або більш загальні терміни, такі як "розлад шкіри", "лентіго", "набутий меланоцитарний невус". Якщо попередньо скоординованої концепції не вдається знайти, буде зроблена спроба після координації.

Загальні вказівки щодо вибору концептів з ієрархій

Історичні відносини

Історичні відносини в SNOMED CT використовуються для зв’язку неактивних понять з активними поняттями. Існує шість історичних взаємозв’язків: "149016008 | МОЖЕ БУТИ (атрибут) |", "384598002 | ПЕРЕМЕЩЕНО З (атрибут) |", "370125004 | ПЕРЕМЕЩЕНО В (атрибут) |", "370124000 | ЗАМЕНЕНО (атрибут) |", "168666000 | ЖЕ ЯК (атрибут) |" та "159083000 | БУВ А (атрибут) |". У лексичній відповідності здійснюється пошук усіх понять незалежно від статусу поняття. Коли неактивну концепцію отримують, історичні відносини можуть вказувати на активну концепцію. Якщо отримана концепція неактивна, історичні зв’язки використовуються для пошуку активної концепції. Результати алгоритму збігу пакетів повинні бути перевірені вручну, щоб забезпечити вибір відповідних концепцій.

Попередньо узгоджені Умови

Є випадки, коли концепція SNOMED CT представляє безліч висновків. Прикладом є «нудота та блювота». Хоча цей термін можна розділити на два окремі атомні терміни і закодувати окремо як "422587007 | Нудота (знаходження) |" та "422400008 | Блювота (розлад) |", у SNOMED CT є єдине поняття "16932000 | Нудота та блювота (розлад) |". Щоразу, коли є заздалегідь узгоджена концепція, це має бути першим вибором. Якщо попередньо скоординована концепція є примітивною концепцією, альтернативою є створення посткоординованого виразу для забезпечення запису необхідної семантики. Причина полягає в тому, що терміни, закодовані примітивними поняттями, складніше запитувати та перевіряти на еквівалентність.

Умови після узгодження

Некодувані умови

Якщо жодна заздалегідь узгоджена концепція або посткоординований вираз не може адекватно представляти елемент даних, і якщо немає бажання створювати розширення, цей термін позначається як некодуваний.

Експорт закодованих термінів як наборів термінів SNOMED CT

Після того, як усі терміни пройшли процес кодування, їх можна класифікувати як закодовані та некодовані терміни. Потім кодовані терміни використовуються для формування набору посилань SNOMED CT та термінології "остаточного" інтерфейсу. Некодовані терміни, які трапляються часто, але не мають еквівалента SNOMED CT, можуть бути подані для включення до майбутнього випуску SNOMED CT через набір розширень SNOMED CT. Інші некодовані терміни, які трапляються рідко, можуть бути класифіковані як некодирувані набори термінів, якщо вони не подаються як частина набору розширень. Підсумок типів результатів кодування в процесі очищення даних наведено на рисунку 5.

Види кодування результатів процесу очищення даних.