Унікальні k -мери як специфічні для штаму штрих-коди для філогенетичного аналізу та природного профілювання мікробіомів

Розмір «унікальних геномів», представлених k-мерами різної довжини для восьми окремих хромосом E. coli, і ступінь їх перетину ілюструється трьома зазначеними геномами. (а) Суцільні лінії показують нормоване на 1 Mbp у кожному геномі число k-мірів (N), виявлене в хромосомах E. coli (штами: K-12 MG1655, ETEC H10407, O26: H11 str. 11368, ABU 83972, APEC O78, str. 042, O157: H7 str. EC4115 та O7: K1 str. CE10), які відсутні в нуклеотидних послідовностях довідкової бази даних. Штриховими лініями показані криві приросту, побудовані для ΔN/Δ k. (b) Діаграма Венна, що ілюструє перетин між наборами 18-мірних ідентифікованих у геномах двох бактерій із групи A (E. coli K-12 MG1655 та ETEC H10407) та E. coli O26: H11 str. 11368, що належить до групи В1. Кількість унікальних 18-мір у кожному геномі, розмір їх загального набору та перетин між двома наборами групи А вказуються без нормування. Діаграма була створена за допомогою діаграми Венна [54].

безкоштовні

Філогенетичне дерево для 124 штамів E. coli, виведене з конкатенованих вирівняних послідовностей 27 генів у програмі IQ-TREE [70], використовуючи метод максимальної вірогідності. Оптимальною моделлю для заміщення нуклеотидів був GTR + G + I (загальна реверсивна за часом модель, що передбачає фіксовану частину інваріантних ділянок та різницю в еволюційній швидкості, описану гамма-розподілом). Рівень підтримки гілок, показаний у відсотках, був оцінений на основі 2000 ітерацій з наближенням надшвидкого завантажувального ремінця [71]. Смужка шкали відповідає кількості замін нуклеотидів на сайт. Колірний код відповідає восьми вказаним фігрупам. Назви всіх штамів вказуються біля відповідних гілок і розділяються комою для однакових послідовностей у групі B1.

Філогенетичне дерево, побудоване методом приєднання сусідів у програмі MEGA X [73]. Дерево було виведено з матриці попарної відстані для 124 наборів 18-мерних, унікальних для родів Escherichia/Shigella, і було ідентичним дереву, побудованому на основі 22-мерних. Набір маркера 18-мер з геному Escherichia albertii KF1 був використаний як позагруповий зразок. Смужка шкали показує відстань Соренсена у відсотках. Той самий колірний код, що на малюнку 2, позначає клади восьми філоггруп.

Фіксогрупозалежна таксономія метагеном від чотирьох здорових людей (цифри 1–4) та чотирьох пацієнтів із хворобою Крона (цифри 5–8). Панель (а) показує розподіл розмірів для сукупних наборів унікальних 22-мірних (кольорові символи) та вибраних метагеном, пронумерованих так само, як і на панелі “b” (відкриті символи). Панель (b) демонструє кількість зчитувань послідовностей, присвоєних певній групі, нормоване за розміром кумулятивних наборів 22-мір (табл. 1) та кількістю зчитувань у метагеномах. Чисельні значення в обох випадках представлені як їх природні логарифми.

Анотація

1. Вступ

85%) [42] була вищою, ніж при класичному філотипуванні (65–83% [5]). Ця точність таксономії на основі k -mer дозволила розрізнити штами Bacillus cereus та Bacillus anthracis, що мають 99% ідентичності [43]. Це означає, що підходи на основі k -mer, що працюють з величезною кількістю маркерних послідовностей, можуть бути корисними не тільки для таксономічного, але і для філогенетичного аналізу. Це мало б особливе значення для внутрішньовидової систематики, де патогенні штами часто дуже важко відрізнити від непатогенних. Тому в цьому дослідженні ми оновили раніше розроблене програмне забезпечення UniSeq [44] для більш точного пошуку унікальних k-мерів у геномах бактерій і вперше застосували їх для розрізнення восьми філогруп кишкової палички, класифікованих Клермонтом та ін. . [45,46].