Ідентифікація та корекція таксономічно неправильно позначених послідовностей з урахуванням філогенезу

Олексій Михайлович Козлов

1 Лабораторія Exelixis, Науково-обчислювальна група, Гейдельберзький інститут теоретичних досліджень, Schloss-Wolfsbrunnenweg 35, 69118 Heidelberg, Німеччина

позначених

Цзяцзе Чжан

1 Лабораторія Exelixis, Науково-обчислювальна група, Гейдельберзький інститут теоретичних досліджень, Schloss-Wolfsbrunnenweg 35, 69118 Heidelberg, Німеччина

Пелін Йільмаз

2 Дослідницька група з геноміки та біоінформатики мікробів, Інститут морської мікробіології Макса Планка, 28359, Бремен, Німеччина

Френк Олівер Глокнер

2 Дослідницька група з геноміки та біоінформатики мікробів, Інститут морської мікробіології Макса Планка, 28359, Бремен, Німеччина

3 Університет Якобса в Бремені gGmbH, Campus Ring 1, 28759 Бремен, Німеччина

Александрос Стаматакіс

1 Лабораторія Exelixis, Науково-обчислювальна група, Гейдельберзький інститут теоретичних досліджень, Schloss-Wolfsbrunnenweg 35, 69118 Heidelberg, Німеччина

4 Технологічний інститут Карлсруе, Інститут теоретичної інформатики, Postfach 6980, 76128 Карлсруе, Німеччина

Пов’язані дані

Анотація

ВСТУП

Таксономія - це наука про класифікацію та називання груп організмів, яка, як правило, базується на спільних характеристиках та/або передбачуваній природній спорідненості. Таксономії мають принципове значення для біологічних, медичних та екологічних досліджень. Крім того, вони відіграють ключову роль у таких сферах, як управління інвазивними видами (1) або сприяння торгівлі (2).

Хоча перші спроби класифікації живих організмів можна простежити ще в глибокій давнині (наприклад, Арістотель), сучасна таксономія бере свій початок у роботі Карла Ліннея. Його унікальна біноміальна система, яка використовується і сьогодні, стандартизує назви видів у всіх сферах життя - від бактерій до тварин. Однак за останні десятиліття в систематичних методах класифікації відбулася зміна парадигми, зумовлена ​​прогресом у молекулярній біології та біоінформатиці. Замість того, щоб покладатися виключно на, напр. Морфологічні чи фізіологічні подібності між організмами, таксономісти тепер також беруть до уваги їх філогенетичні взаємозв'язки, як випливає з молекулярних даних (послідовності ДНК або амінокислот).

Хоча молекулярні філогенії пропонують більш надійну основу для розробки таксономій, вони мають деякі потенційні підводні камені. По-перше, філогенез по суті являє собою еволюційну гіпотезу, яка залежить від кількості та якості даних послідовності, якості вирівнювання, а також методу умовиводу та параметрів. Тому таксономії, що базуються на філогенезах, потребують оновлення у міру того, як з’являються нові послідовності та методи. Часто це не так. Крім того, проблеми, властиві молекулярним даним, такі як химерні та/або низькоякісні послідовності (3,4), можуть впливати на філогенетичні умовиводи. Нарешті, людська помилка присутня завжди; неправильні культури для організмів або помилкові позначення в публічних базах даних можуть ще більше ускладнити філогенетичний аналіз та подальшу таксономічну анотацію.

Мікробні організми, в сукупності бактерії, археї та мікроскопічні еукаріоти, представляють найрізноманітнішу групу живих організмів. На жаль, мікробні організми, як відомо, важко охарактеризувати, оскільки на сьогодні успішно культивується менше 1% мікробів (5). Отже, основним проривом у галузі мікробних таксономій було використання гена рибосомної рРНК (зокрема, його невеликої субодиниці, SSU, яка називається 16S рРНК для бактерій та архей та 18S рРНК для еукаріот). Карл Віз визнав, що молекулярні докази зроблять революцію у галузі бактеріальної філогенезу та систематики, оскільки підхід може замінити досить неінформативні порівняльні підходи до анатомії та фізіології (6), що використовувались на той час. Молекулярні методи дозволили дослідникам з'ясувати еволюційні взаємозв'язки між віддаленими мікробними лініями, що призвело до єдиної класифікації життя на три домени ("система з трьома доменами").

Норман Р. Пейс (7) ще більше розширив роботу Воуза шляхом розробки ПЛР у навколишньому середовищі, що дозволило ампліфікувати рРНК безпосередньо із зразків навколишнього середовища та оцінити мікробне різноманіття в молекулярному масштабі (8,9). Більше того, нещодавні дослідження корелювали зміни мікробного складу кишечника із захворюваннями людини, такими як ожиріння, діабет та запальні захворювання кишечника (10–12). Передумовою для проведення таких екологічних досліджень є наявність надійної таксономічної класифікації екологічних послідовностей. У свою чергу, це вимагає стабільної та добре витриманої систематики для відповідних послідовностей опорних баз даних.

Для деяких груп організмів підхід, який керується громадою, виявився успішним. Слід зазначити, що UNITE пропонує веб-платформу для стороннього анотування грибкових послідовностей ІТС (20). У такій системі розподіл роботи та покращена підтримка за допомогою відповідного програмного забезпечення дозволяють значно пришвидшити курацію (21). Однак цей підхід залежить від готовності відповідної спільноти інвестувати час і зусилля в систематичне курирування. Хоча зміна таксономічних міток сама по собі досить проста в таких системах, як UNITE, все ще залишається найбільш трудомістка частина: виявлення проблемних послідовностей, а також вироблення нових, виправлених міток для них. Тому ми вважаємо, що інструменти, що пропонують автоматичні рекомендації щодо цих двох основних завдань, будуть корисними як для онлайн-, так і для офлайн-курирування.

Тут ми пропонуємо новий метод ідентифікації передбачуваних помилкових міток у систематиках. Мотивовані сучасним підходом до систематики, який усвідомлює філогенез, ми розглядаємо топологічну невідповідність між систематичним та філогентичним деревом як ознаку того, що деякі послідовності можуть бути неправильно позначені. Отже, ми використовуємо алгоритм еволюційного розміщення (EPA) (22) для виявлення послідовностей, таксономічні та філогенетичні розміщення яких не узгоджуються.