Оцінка чисельності населення для контролю якості наборів даних ChIP-Seq

Ролі Курація даних, Формальний аналіз, Розслідування, Методологія, Ресурси, Програмне забезпечення, Візуалізація, Написання - оригінальний проект, Написання - огляд та редагування

Філії BIOSOFT.RU, ТОВ, Новосибірськ, Російська Федерація, Інститут обчислювальних технологій СО РАН, Новосибірськ, Російська Федерація, Інститут цитології та генетики СО РАН, Новосибірськ, Російська Федерація

Ролі Формальний аналіз, методологія, написання - оригінальний проект, написання - огляд та редагування

Філії BIOSOFT.RU, ТОВ, Новосибірськ, Російська Федерація, Інститут обчислювальних технологій СО РАН, Новосибірськ, Російська Федерація

Ролі Курація даних, Ресурси

Ролі Концептуалізація, методологія, написання - огляд та редагування

Філії BIOSOFT.RU, LLC, Новосибірськ, Російська Федерація, Новосибірський державний університет, Новосибірськ, Російська Федерація

Ролі Концептуалізація, курація даних, методологія, адміністрування проектів, ресурси, нагляд, написання - огляд та редагування

Семен К. Колмиков,
Кондрахін Юрій Васильович,
Іван С. Євшин,
Шаріпов Руслан Миколайович,
Рябова Анна Сергіївна,
Федір Олександрович Колпаков

Цифри

Анотація

Цитування: Колмиков С.К., Кондрахін Ю.В., Євшин І.С., Шаріпов Р.Н., Рябова А.С., Колпаков Ф.А. (2019) Оцінка чисельності населення для контролю якості наборів даних ChIP-Seq. PLoS ONE 14 (8): e0221760. https://doi.org/10.1371/journal.pone.0221760

Редактор: Лі Чень, Обернський університет - Гаррісонська фармацевтична школа, США

Отримано: 6 червня 2019 р .; Прийнято: 14 серпня 2019 р .; Опубліковано: 29 серпня 2019 р

Наявність даних: Усі відповідні дані містяться в роботі.

Фінансування: Ця робота підтримується Російським науковим фондом, грантовим договором № 19-14-00295 (http://rscf.ru/uk/) між SKK, YVK, ISY, RNS, ASR, FAK. Фінансист не брав участі у розробці досліджень, зборі та аналізі даних, прийнятті рішення про публікацію чи підготовці рукопису.

Конкуруючі інтереси: Автори заявили, що не існує конкуруючих інтересів.

Вступ

Розуміння основних механізмів регуляції транскрипції залишається великим викликом у сучасній біології. Регулювання транскрипції - це складний процес, в якому фактори транскрипції (ТФ) відіграють ключову роль. Як правило, TF розпізнають і зв'язуються з відповідними сайтами зв'язування TF (TFBS) в геномі. Розпізнавання цих синдромів у цілих геномах in silico залишається однією з найскладніших проблем біоінформатики. В наш час імунопреципітація хроматину з подальшим секвенуванням (ChIP-Seq) є широко використовуваною експериментальною технологією для ідентифікації зв’язуючих ділянок TF (TFBR), що містять TFBS. На сьогодні проведено десятки тисяч експериментів ChIP-Seq. Розумно припустити, що ця кількість буде швидко зростати з року в рік.

На сьогодні створено кілька баз даних, такі як ENCODE [1], GTRD [2], ChIP-Atlas [3] та ReMap [4]. Там систематично збираються, коментуються та рівномірно обробляються нові окремі набори даних, включаючи дані про TFBR, отримані шляхом застосування різних пікових викликів до первинних даних ChIP-Seq. Природно припустити, що збільшення кількості зібраних наборів даних вимагає не ручного, як раніше, а автоматизованого оцінювання якості для спрощення вибору належних наборів даних для подальшого аналізу. В даний час загальноприйнятою практикою оцінки якості наборів даних ChIP-Seq є застосування добре відомих показників якості, розроблених в рамках проекту ENCODE. Наприклад, такі показники, як NRF (частка не-надмірності), PBC1, PBC2 (коефіцієнт 1 і 2 ПЛР), NSC (коефіцієнт взаємної кореляції нормалізованого ланцюга) та RSC (коефіцієнт взаємної кореляції відносної нитки) застосовуються виміряти якість вирівнювання зчитування для окремих геномів [5]. Для безпосередньої оцінки якості наборів даних ChIP-Seq, що виробляються різними піковими абонентами, зазвичай використовується метрика FRiP (частка відліків у піках) [5].

На сьогоднішній день принаймні три бази даних, такі як ENCODE, GTRD та ReMap, оцінюють усі їхні набори даних ChIP-Seq за допомогою згаданих показників. Однак, здається ймовірним, що така проблема, як контроль якості наборів даних ChIP-Seq, була вирішена не повністю. Зокрема, існуючі показники якості не дозволяють контролювати показники хибнопозитивних (FP) та помилково негативних (FN) у наборах даних, що генеруються різними піковими викликами. Головною метою нашого дослідження було розробити дві нові метрики контролю якості, Метрики помилково-позитивного контролю (FPCM) та Метрики помилково-негативного контролю (FNCM), що дозволило контролювати швидкості FP та FN пікових абонентів. Для цього ми використовували методи оцінки чисельності популяції, щоб оцінити невідому кількість справжніх TFBR.

В основному, оцінка чисельності населення інтенсивно використовується у багатьох галузях знань, включаючи екологічні науки [6], медицину [7] та соціальні науки [8]. Взагалі, низка моделей захоплення-повторного захоплення, як правило, застосовується в різних додатках, включаючи оцінку чисельності популяції. Однак ці моделі не застосовувались для аналізу наборів даних ChIP-Seq. Безумовно, основною метою розроблених метрик є слугувати керівництвом для вибору більш надійних наборів даних, а також для створення їх модифікованих версій. Ми також показали, що запропоновані показники виявились корисними для інших застосувань, таких як порівняння пікових абонентів або прогнозування TFBS у межах TFBR.

Загалом, точна ідентифікація TFBS все ще є великим викликом у біоінформатиці. В даний час підхід матриці ваги позиції (ШІМ) є одним із найпоширеніших і широко використовуваних для обчислювальної ідентифікації TFBS. У рамках цього підходу було розроблено ряд методів прогнозування передбачуваних TFBS. Зокрема, серед них - MATCH [9], MEME [10] та модель вагової матриці HOCOMOCO [11]. Є кілька сховищ, які накопичують матриці для представлення TFBS. Зокрема, HOCOMOCO [11], JASPAR [12] та UniPROBE [13].

В даний час вже опубліковано більше 30 алгоритмів пікових викликів для отримання наборів даних TFBR з вирівняних даних ChIP-Seq [14]. В даний час вже проведено різні порівняльні аналізи таких алгоритмів. Один з перших порівняльних аналізів був опублікований у 2009 р. [15]. Однак, безсумнівно, найкращого алгоритму пікового дзвінка поки що не знайдено. Як правило, ці порівняння, як правило, проводились на невеликій кількості наборів даних, використовуючи різні метрики та критерії порівняння. Отже, деякі порівняльні аналізи призвели до суперечливих оцінок. Наприклад, під час трьох аналізів були зроблені суперечливі висновки щодо таких алгоритмів, як MACS, SICER та F-Seq [16, 17, 18]. Сучасний стан техніки однозначно вказує на високий попит на розробку більш досконалих метрик та критеріїв порівняння, а також на створення єдиного та репрезентативного набору тестів, який можна використовувати для подальшого порівняльного аналізу.

Матеріали і методи

Алгоритм визначення FPCM та FNCM

Нехай D позначає метанабір D = 1,…, Dk>, що складається з k наборів даних TFBR Di, i = 1,…, k. Ми розглянули дві подвійні настройки. У першому випадку D1,…, Dk - це набори даних TFBR, отримані шляхом незалежного застосування k різних викликуючих піків до одного і того ж набору зчитувань ChIP-Seq, вирівняних до еталонного геному. Зокрема, ми розглянули такі k = 4 пікові абоненти, доступні в GTRD: GEM [19], MACS [20], PICS [21] та SISSRs [22]. У другому випадку мета-набір містить набори даних TFBR, отримані шляхом застосування одного пікового виклику до різних наборів зчитування ChIP-Seq, коли той самий TF вивчався в різних експериментах ChIP-Seq. Ми розробили наші метрики FPCM та FNCM для оцінки якості окремих наборів даних Di, i = 1,…, k, а також цілого метанабору D.