Інформаційний прогалина в інтерпретації доказів ДНК

Філія Кібергенетика, Пітсбург, Пенсільванія, Сполучені Штати Америки

Affiliation Genetica, Цинциннаті, Огайо, Сполучені Штати Америки

Цифри

Анотація

Судово-медичні докази ДНК часто містять суміші кількох учасників або містяться у незначній кількості шаблону. Отримані сигнали даних можуть здатися відносно неінформативними при інтерпретації за допомогою якісних методів, заснованих на включенні. Однак ці самі дані можуть дати більшу ідентифікаційну інформацію при інтерпретації комп'ютером за допомогою методів кількісного моделювання даних. Це дослідження застосовує як якісні, так і кількісні методи інтерпретації до добре охарактеризованих наборів даних ДНК-суміші та розведення, а також порівнює отриману інформацію про відповідність. Результати показують, що якісна інтерпретація втрачає силу ідентифікації при низькій кількості винуватців ДНК (нижче 100 пг), але що кількісні методи дають корисну інформацію в діапазоні 10 пг. Таким чином, існує десятикратний інформаційний розрив, який розділяє якісні та кількісні підходи до інтерпретації суміші ДНК. При низьких кількостях винуватця ДНК (від 10 до 100 пг), комп’ютерна кількісна інтерпретація забезпечує більшу чутливість до відповідності.

Цитування: Перлін М.В., Синельников А. (2009) Інформаційний прогалина в інтерпретації доказів ДНК. PLoS ONE 4 (12): e8327. https://doi.org/10.1371/journal.pone.0008327

Редактор: Фабіо Рапалло, Університет Східного П'ємонту, Італія

Отримано: 20 серпня 2009 р .; Прийнято: 17 листопада 2009 р .; Опубліковано: 16 грудня 2009 р

Фінансування: Це дослідження було частково підтримано під номером премії 2001-IJ-CX-K003 від Управління програм юстиції Національного інституту юстиції Департаменту юстиції (www.ojp.usdoj.gov/nij/). Кібергенетика (www.cybgen.com) забезпечила докторів підтримку заробітної плати. Перлін і Синельников. Фінансисти не мали жодної ролі у розробці досліджень, зборі та аналізі даних, прийнятті рішення про публікацію чи підготовці рукопису.

Конкуруючі інтереси: Доктор Марк Перлін є акціонером, офіцером і співробітником кібергенетики в Пітсбурзі, штат Пенсільванія, компанії, яка розробляє генетичні технології для комп'ютерної інтерпретації доказів ДНК. Кібергенетика виробляє систему TrueAllele® Casework, яка є одним із методів, описаних у статті. Доктор Алекс Сінельников є співробітником Genetica у Цинциннаті, штат Огайо, компанії, яка проводить генетичне тестування. Доктор Сінельников був співробітником кібергенетики на той час, коли він працював над цим дослідженням.

Вступ

Ідентифікація ДНК є потужним криміналістичним інструментом для розкриття та попередження злочинів [1]. Однак дані ДНК збираються з поля в реальних умовах і можуть давати менше первозданних даних, ніж контрольний зразок, отриманий від людини в контрольованому середовищі. Двома загальними джерелами неоднозначності даних у біологічних доказах є (а) суміші ДНК від кількох учасників та (b) ДНК із низьким вмістом матриці (LT-ДНК), яка у зразку доказів становить менше 100 пг.

Суміші ДНК можуть бути дуже доказовим доказом злочину сексуального характеру (наприклад, незнайомчого зґвалтування), де сперма винного змішується з епітеліальними клітинами жертви [2]. Поєднання винуватця та жертви в інших насильницьких злочинах (наприклад, вбивства) може допомогти встановити, що підозрюваний був причетний до кримінальної події. Докази ДНК, пов’язані з майновими злочинами [3], часто є змішаними, із низьким зразком або обома. Низька кількість шаблону ДНК (при будь-якому типі злочину) виробляє менш посилений сигнал, створюючи неоднозначні дані, судово-медична інтерпретація яких може дати менше ідентифікаційної інформації [4].

Ці виклики ДНК мають великий вплив на лабораторну практику злочинів. Складні зразки можуть витрачати надмірно багато часу для перевірки та отримувати неоптимальну інформацію, створюючи відставання ДНК та непереконливі результати [5]. Проте такі складні докази можуть бути надзвичайно важливими для захисту громадськості від небезпечних злочинців. Одна лабораторія підрахувала, що своєчасна експертиза ДНК усіх майнових злочинів та сексуальних нападів запобіжить 100 000 зґвалтувань сторонніх людей у США [6]. Почасти це пов’язано з тим, що крадіжка зі зґвалтуванням є злочином можливості, вчиненим аналогічними спеціалізованими кар’єрними злочинцями [7], тому грабіжники, які перебувають у в’язниці, можуть допомогти запобігти зґвалтуванням.

Дані ДНК генеруються шляхом лінійного посилення та зчитування, в якому кількісні події алелів поєднуються арифметично. Такі лінійно сформовані дані ДНК можна математично описати за допомогою кількісної лінійної моделі [8], [9]. Деякі практики аналізують суміші, використовуючи кількісну інформацію про піки [10]. Однак в даний час більшість судово-медичних інтерпретацій ДНК використовують замість цього якісну булеву логіку подій, які стосуються всіх алелів [11].

Існує мало єдиної думки щодо інтерпретації LT-ДНК та їх сумішей. Якісні методи починаються із застосування порогового значення висоти піку до кількісного сигналу ДНК, щоб зберегти або відкинути піки даних, видаляючи інформацію про висоту піку. Поточна суперечка ставить під сумнів вибір числового порогового значення (від 50 до 300 одиниць) та скільки порогових значень застосовувати (один [12], два [13] чи багато [14]). Практикуючі дискутують, чи має тлумачення суміші враховувати відомих авторів [15], [16], або замість цього ігнорувати генотипи жертв [13], [17]. Деякі вчені пропонують, як інтерпретувати LT-ДНК [4], а інші взагалі засуджують цю практику [18]. Було визнано [19], що математичне моделювання кількісних даних [8], [20] може вирішити ці "порогові" проблеми, і був досягнутий значний прогрес у статистичних комп'ютерних моделях для інтерпретації складних доказів ДНК [9], [21], [22], [23].

Ця триваюча дискусія викликає кілька важливих питань. Які справжні межі інтерпретації ДНК для сумішей та зразків з низьким вмістом матриці? Які доступні методи інтерпретації можуть отримати найбільше інформації про ДНК для ідентифікації злочинців? Як підходи щодо кількісної інтерпретації суміші ДНК порівнюють із сучасною якісною практикою? Розуміння цих питань може допомогти суспільству розподілити ефективні ресурси боротьби зі злочинністю ДНК для підвищення громадської безпеки.

У цій роботі ми розглядаємо інформацію, отриману кількісними та якісними методами інтерпретації ДНК. Ми застосовуємо обидва методи до одного і того ж набору даних суміші з різною вагою учасника та кількістю ДНК. Ми виявляємо інформаційний розрив між двома підходами: якісні методи обмежуються винуватцями кількості ДНК понад 100 пг, тоді як кількісні методи можуть розширити значущу інтерпретацію до 10 пг. Ми показуємо, як аналіз інформаційного розриву був корисним для представлення доказів ДНК у суді. Ми прийшли до висновку, що кількісні методи можуть бути кращими при інтерпретації доказів суміші LT-ДНК.

Загальною метою дослідження було порівняння відносної ефективності нових кількісних комп’ютерних методів інтерпретації ДНК-суміші з сучасними якісними ручними методами. Ми зробили це, вимірявши чутливість кожного методу, використовуючи нове спостереження, що існує лінійна залежність між (логарифмом) кількості ДНК та інформацією про відповідність ДНК. Ми спостерігали, що кількісна інтерпретація суміші розширює поточні межі виявлення якісних методів на порядок, тим самим досягаючи мети дослідження.

Методи

Ми розглядаємо альтернативні підходи до інтерпретації суміші ДНК. Спочатку ми представляємо кількісну лінійну модель для розуміння генерування змішаних та низькотемпературних даних STR. Ми пояснюємо, як модель вірогідності враховує стохастичні ефекти. Потім ми показуємо, як комп’ютерна реалізація цієї кількісної моделі може зробити висновки про генотипи тих, хто надає дані. Ми також описуємо сучасні якісні методи інтерпретації сумішей, що застосовуються в лабораторіях злочинів. Ми використовуємо інформаційний показник, заснований на рідкості генотипів, який може бути використаний для порівняння цих кількісних та якісних методів висновку. Ми також показуємо, як із цієї інформаційної міри можна отримати стандартну статистику відповідності ДНК. Для об’єктивності [24] ми завжди спочатку робимо висновок про генотип (прихильність до відповіді у всіх локусах), а лише потім на другому етапі порівнюємо його з іншим генотипом [25]. Ми також описуємо дизайн даних, програмне забезпечення та параметри, використані в цьому дослідженні.

Модель даних суміші

Якщо коротко повторити (STR) генотипування (STR), алелі відповідають довжині продукту ампліфікованої полімеразної ланцюгової реакції (ПЛР), що визначається поділом розмірів на ДНК-секвенсорі [26], [27]. Нанограма ДНК від однієї особини утворює один або два високих піки алелів разом з меншими піками артефактів. Суміш ДНК, однак, має декілька учасників, і вона може створити більш складний шаблон даних [20], [28]. Менші кількості ДНК зменшують спостережувані висоти піків та посилюють стохастичні ефекти. При аналізі STR як ампліфікація ПЛР, так і виявлення секвенсорів є принципово лінійними процесами, тому суміш генотипів виробляє сигнал, який становить приблизно суму окремих сигналів генотипу [29].

Ми можемо змоделювати кількісні дані в локусі STR (локусів), використовуючи кілька змінних. Вектор даних формує візерунок, який відображає довжини продукту ДНК у спостережувані кількісні висоти піків (або ділянок). Вкладаючи дані, ми представляємо параметр генотипу вкладника в локусі як вектор, де записи довжини ДНК містять кількість алелів, яка дорівнює 1 [8]. Вектор генотиготу гетерозиготи містить два 0,5 входи, тоді як гомозигота має 1 вхід; всі інші векторні записи дорівнюють 0 [30]. Параметр ваги суміші представлений у вигляді вектора, компоненти якого складають 1 (тобто). Загальна кількість ДНК у локусі задається параметром маси. З цими трьома змінними кількісна лінійна модель шаблону даних у локусі має очікуване векторне значення, задане зваженою сумою генотипу у рівнянні (1). (1) Більш повна модель також стосуватиметься заїкання ПЛР, відносного посилення, деградованої ДНК, поділу барвників та фонового шуму [31]. Корисне ієрархічне уточнення моделює вагу суміші індивідуально в кожному локусі, причому кожна вага береться із загального розподілу матричної суміші ДНК [32].

Існують випадкові зміни у спостережуваних висотах піків, що виникають в результаті ампліфікації ПЛР та виявлення секвенсора. ПЛР - це процес розгалуження [33], при якому випадковий елемент походить від ефективності реплікації ДНК, змодельованої копією (або відсутністю) події Бернуллі для кожної молекули ДНК у кожному циклі [34]. Комп’ютерне моделювання [35] у цій моделі Бернуллі показує, що дисперсія ампліфікації масштабується з висотою піку y, це оцінка кількості ДНК. Емпіричні дослідження демонструють, що ПЛР дотримується стохастичного розподілу кількості Пуассона, де дисперсія продукту пропорційна кількості ДНК [36]. Як і в інших моделях підрахунку подій, корисно додати коефіцієнт дисперсії, щоб врахувати відхилення моделі [37], тому ми моделюємо дисперсію посилення піку як. Варіація виявлення секвенсора не залежить від кількості ДНК і може бути змодельована окремо параметром постійної дисперсії. Ми також зазначаємо, що піки даних повинні бути незалежними один від одного.

З урахуванням цих міркувань ми пишемо матрицю коваріації даних, як у рівнянні (2), де є дисперсія посилення, варіація виявлення та діагональна матриця висот піків. Потім ми можемо лінійно моделювати вектор даних за допомогою усіченого () багатовимірного нормального розподілу середнього вектора та матриці коваріації [8], як у рівнянні (3). (3) Можуть використовуватися інші моделі даних квадратних відхилень [38], [39], а також ненормальні розподіли [40].

Ми показуємо приклад сигналу даних (рис. 1а) із локуса Penta D зразка C3, описаний нижче в розділі Дані. Є три алелі в перекриваються парах алелів двох генотипів, що сприяють. Вага суміші першого вносителя "А" становить 70%, а ваги другого вносителя "Г" - 30%. Зважена сума векторів генотипу утворює висхідний малюнок піків (рис. 1b). Загальна алельна пікова маса становить 1062 відносних флуоресцентних одиниць (rfu). Візуально ми бачимо хорошу відповідність між кількісною моделлю даних висоти піку та кількісною лінійною оцінкою рівняння (1).