Складання транскриптома з довго читаних вирівнювань РНК-послідовностей за допомогою StringTie2

Анотація

РНК-секвенування за допомогою новітніх одномолекулярних інструментів секвенування виробляє читання довжиною в тисячі нуклеотидів. Можливість збирати ці довгі читання може значно покращити чутливість довго читаних аналізів. Тут ми представляємо StringTie2, асемблер транскриптомів з керованими посиланнями, який працює як з короткими, так і з довгими читаннями. StringTie2 включає нові методи для обробки високого рівня помилок довгих читань і пропонує можливість роботи з повнорозмірними супер-читаннями, зібраними з коротких читань, що додатково покращує якість короткочасних читань. StringTie2 є більш точним і швидким і використовує менше пам'яті, ніж усі аналогічні засоби короткого читання та тривалого читання.

складання

Передумови

Вимірювання кількості транскриптів у наборі даних РНК-секвенування (RNA-seq) є потужним способом зрозуміти роботу клітини. Просте вирівнювання зчитування з еталонним геномом може дати приблизні оцінки середньої експресії генів і натякнути на різне використання сайтів сплайсингу [1], але для створення точної картини генної активності необхідно зібрати колекції зчитувань у транскрипти. Альтернативне сплайсинг дуже поширене у еукаріотів, оскільки, за оцінками, 90% генів, що кодують мульти-екзонний білок людини, і 30% генів, що не кодують РНК (ncRNA), мають множинні ізоформи [2, 3]. Хоча кількість анотованих генів, що кодують білок людини, залишається більш-менш постійною протягом останнього десятиліття, кількість генів ncRNA та кодуючих білок ізоформ продовжує зростати [4].

Секвенсери другого покоління, такі як ілюмінатори, можуть виробляти сотні мільйонів коротких (

StringTie та інші асемблери транскриптомів оцінюють достаток транскриптів на основі кількості вирівняних зчитувань, призначених кожному транскрипту. Зовсім недавно такі альтернативні методи, як Sailfish [15], Salmon [16] та Kallisto [17], продемонстрували, що можна оцінити кількість, призначаючи читання відомим розшифровкам на основі точних k-більше відповідності, що забезпечує значний приріст швидкості, відмовляючись від вимоги до точного вирівнювання зчитування на базовому рівні. Однак ці методи, що не вирівнюються, не можуть виявити нові гени чи ізоформи, і вони демонструють гіршу ефективність кількісного визначення низької чисельності та малих РНК порівняно з трубопроводами на основі вирівнювання [18].

Тут ми представляємо StringTie2, основний новий випуск асемблера транскрипції StringTie, який здатний збирати як короткі, так і довгі читання, а також повночитані супер-читання. Наші результати на 33 наборах даних Rlum-seq Illumina демонструють, що StringTie2 є більш точним, ніж Scallop, наступний за показником найкращий асемблер транскриптомів з наявних на даний момент. Застосування суперчитання також постійно покращує як чутливість, так і точність збірки StringTie2. При застосуванні до тривалих зчитувань StringTie2 збирає зчитування значно точніше, швидше та використовуючи менше пам'яті, ніж FLAIR, наступний за показником інструмент для найдовшого аналізу. На відміну від FLAIR, StringTie2 може також ідентифікувати нові стенограми з давно прочитаних даних, навіть коли посилання не надано.

Результати

Складання транскриптома коротких РНК-секв

Спочатку ми використали змодельовані дані для порівняння чутливості та точності StringTie2, із суперзчитуваннями та без них, із даними Scallop (рис. 1), одного з останніх збирачів транскриптомів для коротких даних RNA-seq, який було показано на деякі дані забезпечують підвищення точності складання порівняно з StringTie1 [11].