Складання генома De novo сорту рису Indica IR64 із використанням послідовності зв’язаного читання та послідовності нанопор

Анотація

IR64 - це сорт рису з високою врожайністю, який широко культивується у всьому світі. IR64 замінено на сучасні сорти в більшості районів вирощування. Враховуючи, що сучасні сорти є переважно потомками або родичами IR64, генетичний аналіз IR64 є цінним для функціональної геноміки рису. Однак послідовності геному на рівні хромосом IR64 раніше не були доступними. Тут ми секвенували геном IR64, використовуючи синтетичні довгі зчитування, отримані шляхом секвенування з зв’язаним зчитуванням, і наддовгі зчитування, отримані шляхом секвенування нанопор. Ми інтегрували ці дані та створили нову збірку генома IR64 на 367 Мб, що еквівалентно 99% від передбачуваного розміру. Безперервність збірки генома IR64 була покращена порівняно із загальнодоступною збіркою генома IR64, генерованою лише короткими зчитуваннями. Ми зазначили 41 458 кодуючих білок генів, у тому числі 657 IR64-специфічних генів, яких немає в інших високоякісних збірках генома рису IRGSP-1.0 сорту японіка Ніппонбаре або R498 сорту індіки Shuhui498. Агрегат IR64 буде служити ресурсом геному для функціональної геноміки рису, а також для геномної та/або молекулярної селекції.

складання

IR64 - це знаковий сорт рису індика (Oryza sativa L.), який був розроблений Міжнародним інститутом досліджень рису на Філіппінах у 1985 р. (Mackill and Khush 2018). IR64 - нащадок «чудо-рису» IR8, початкового сорту Зеленої революції. IR8 різко збільшив урожай зерна завдяки гену напівкарликів sd1. Окрім високої врожайності, IR64 має високу якість їжі та стійкість до хвороб, тому IR64 був одним із найпопулярніших сортів рису, що вирощувався в Південно-Східній та Південній Азії з кінця 1980-х до початку 2000-х років. Сучасні сорти з більш високою врожайністю та покращеною стійкістю до хвороб замінили IR64 у багатьох країнах за останні два десятиліття. Важливо, що ці сучасні сорти є переважно потомками або родичами IR64 (Mackill and Khush 2018). Крім того, на генетичному тлі IR64 були розроблені майже ізогенні лінії, що надають нові та вдосконалені риси, такі як толерантність до посухи та стійкість до занурення. Отже, генетичний аналіз IR64 залишається надзвичайно важливим для подальшого вдосконалення IR64 або його потомків.

Еталонна послідовність геномів сорту рисової японки Ніппонбаре аналізували за допомогою BAC-by-BAC секвенування з використанням технології секвенування Sanger (Goff et al. 2002, IRGSP 2005). Досягнення високопродуктивних технологій секвенування дозволило провести повторне секвенування цілого генома тисяч сортів рисової японки, індіки та ауса, а також більш віддалених видів Oryza. Послідовність на основі посилань є потужним методом виявлення малих поліморфізмів, що використовуються для кількісного аналізу локусів ознак та вивчення асоціацій у цілому геному (Huang et al. 2010, Wang et al. 2018). Однак повторне розподіл не застосовується для великих структурних змін або сильно диверсифікованих регіонів. Повідомляється про проект збірки геномів de novo IR64, що генерується короткими зчитуваннями, однак збірка дуже фрагментована і складається з тисяч риштувань (Schatz et al. 2014). У 2014 році були опубліковані послідовності геному на рівні хромосом сорту indica Shuhui498 (R498) (Du et al. 2017). Цей геном був визначений шляхом гібридної збірки з використанням платформ PacBio та Illumina. Якість збірки була порівнянна з послідовностями BAC-by-BAC геному Ніппонбаре.

Синтетичні технології тривалого зчитування дозволяють отримувати віртуальні наддовгі зчитування з коротких зчитувань, генерованих високопродуктивними секвенсорами, а одномолекулярні секвенсори генерують наддовгі читання. Збірки, засновані на цих тривалих зчитуваннях, мають вищу суміжність, ніж на основі лише коротких зчитувань. У цьому дослідженні ми секвенували геном IR64, використовуючи дві платформи: 10x Genomics Chromium зчитуване зчитування та одномолекулярний секвенсор Oxford Nanopore MinION. Ми інтегрували дані послідовності зв’язаного зчитування та дані послідовності нанопор для побудови збірки генома IR64 (рис. 1). Ми використовували загальнодоступну карту генетичних зв'язків, побудовану з рекомбінантних інбредних ліній (RIL), отриманих з IR64 та Azucena, для побудови суперскладок на рівні хромосом. Якість збірки генома IR64 порівнянна з якістю поточних еталонних геномів рису japonica Nipponbare та indica Shuhui498, базуючись на повноті та точності послідовностей геномів та порівняльному аналізі генів. У сукупності ми пропонуємо новий ресурс геному для рисової спільноти та додатковий варіант для економічно ефективного підходу збору геному de novo.

Схематична ілюстрація складання de novo генома IR64. Програмне забезпечення, що використовується для аналізу, позначається курсивом.

Матеріали і методи

Екстракція рослинного матеріалу та ДНК

Насіння IR64 (Міжнародна колекція рисових генних банків № 66970, щонайменше 10 разів проводилося самоконтролем у Національному інституті агробіологічних наук, Японія) стерилізували та інкубували на середовищі Murashige та Skoog з додаванням 3% сахарози та 1% агару при рН 5,8 у ящик для рослин при температурі 28 ° протягом 8 днів. Листя 8-денної розсади заморожували в рідкому азоті і подрібнювали до дрібного порошку за допомогою ступки. Високомолекулярну ДНК екстрагували буфером G2 (Qiagen), доповненим протеїназою K і РНКазою A, при температурі 60 ° протягом ночі з легким перемішуванням. Після центрифугування при 2000 × g протягом 30 хв супернатант завантажували в геномний наконечник 100 (Qiagen), попередньо збалансований буфером QBT (Qiagen), і двічі промивали буфером QC (Qiagen). ДНК елюювали буфером QF (Qiagen), осаджували ізопропіловим спиртом, промивали 70% етанолом і розчиняли в буфері EB (Qiagen). Концентрацію ДНК вимірювали за допомогою набору високої чутливості Qubit dsDNA (Invitrogen).

Публічні послідовності геному рису та дані анотацій

Послідовності геномів та дані анотацій для O. sativa subsp. japonica Nipponbare (IRGSP-1.0) та O. sativa subsp. indica Shuhui498 (R498) були завантажені з RAP-DB (https://rapdb.dna.affrc.go.jp/) (Kawahara et al. 2013; Sakai et al. 2013) та MBKBASE (http: // www. mbkbase.org/R498/) (Du et al. 2017) бази даних відповідно. Ми також завантажили загальнодоступні послідовності геному IR64 з лабораторії Шатца (http://schatzlab.cshl.edu/data/rice/) (Schatz et al. 2014). Враховуючи те, що на веб-сайті не було доступно кодуючих послідовностей (CDS) та білкових послідовностей, ми витягли послідовності CDS із послідовності генома за допомогою файлу GFF і перевели у білкові послідовності. Для виявлення повторюваних елементів ми використовували mipsREdat_9.3p_Poaceae_TEs.fasta, завантажену з бази даних PGSB (http://pgsb.helmholtz-muenchen.de/plant/) (Spannagl et al. 2017).

Послідовність зв’язаного читання

Бібліотека, пов’язана з прочитаним, була підготовлена ​​за допомогою набору реагентів Chromium Genome (10x Genomics) та послідовно розподілена на одній смузі платформи Illumina HiSeq X у Macrogen Japan. Зв’язані зчитування були зібрані за допомогою асемблера Supernova v.2.0.1 із параметрами за замовчуванням, за винятком “–maxreads = 142000000”, щоб досягти 56 × необробленого покриття, відповідно до інструкцій виробника. Початковий проект збірки генома IR64_Chromium був представлений у форматі псевдогаплотипу. Закриття прогалини було проведено за допомогою GAPCLOSER v.1.12 для подальших будівельних лісів (Luo et al. 2012). Отримані послідовності використовувались для подальших риштування.

Секвенування нанопор

Бібліотека ДНК для секвенування MinION була підготовлена ​​на основі протоколу експерименту з швидким контролем лямбди з використанням комплекту швидкого секвенування (Oxford Nanopore Technologies). Бібліотеку завантажили на проточні клітини MinION R9.5 SpotON (Oxford Nanopore Technologies). Базовий дзвінок виконував MinKnow. Збірка геному проводилася за допомогою Canu v1.6 з параметром “-nanpore-raw”. Зібрані контиги були виправлені за допомогою коротких зчитувань, отриманих із бібліотеки з приєднаним читанням за допомогою платформи HiSeq X. Зчитування парних кінців було зіставлено зібраними послідовностями за допомогою BWA-0.7.15 з параметрами “mem-M -T 30” (Li and Durbin 2009). Обробку виконували за допомогою samtools-1.4 із кроками “view -q 30 -F 0x100” та “view -f 0x2” (Li 2011). Нарешті, поліморфізми, виявлені Набором інструментів аналізу геномів HaplotypeCaller з опціями “-out_mode EMIT_VARIANTS_ONLY – variant_index_type LINEAR – variant_index_parameter 128000 – filter_reads_with_N_cigar” (McKenna et al. 2010), були включені в зібрані послідовності -scns з використанням bcf з використанням bcf Ли 2011).

Побудова збірки IR64 v. 1.0

Ліси з 10x Genomics Chromium та контиги з платформ Nanopore MinION були інтегровані Quickmerge (версія 3) із налаштуваннями за замовчуванням (Chakraborty et al. 2016). Потім ми зіставили дані GBS для популяції RIL IR64 × Azucena, завантажені з бази даних про різноманітність рису (http://www.ricediversity.org/data/) (Spindel et al. 2013). Загалом 30 984 маркери однонуклеотидного поліморфізму (SNP) були зіставлені з консенсусними послідовностями IR64 за допомогою BLASTN з порогами ≥90% ідентичності та охоплення (Camacho et al. 2009). Виходячи з генетичної відстані, ешафоти вирівнювались вздовж хромосомного положення. Враховуючи, що не всі маркери були вирівняні відповідно до генетичної відстані, ми відкинули маркери-сироти SNP та маркери з невідповідними положеннями в межах 1000 bp. Далі вручну було підготовлено 599 можливих помилкових збірок. Ми розділили помилкову збірку на зазорах між контигами та перемістили їх у правильні локуси, відповідно до генетичної карти. Нарешті, кураторські послідовності були виправлені за допомогою коротких зчитувань, отриманих із бібліотеки зв’язаних зчитувань, створеної на платформі HiSeq X, як описано вище. Розмір геному IR64 оцінювали за розподілом частоти k-mer (Zhang et al. 2012), використовуючи JellyFish-2.2.10 (Marcias and Kingsford 2011) з розміром k-mer 25.

Анотація геному

Ми анотували генні моделі за допомогою MAKER 2.31.10, який інтегрує РНК-секвенування (RNA-seq) на основі генної моделі, гомології білка та прогнозування гена ab initio. Для побудови моделей генів, заснованих на RNA-seq, ми використовували загальнодоступні зчитування RNA-seq IR64 (Xiang et al. 2017). Після адаптера та якісного обрізання з використанням trimmomatic-0.30 (ILLUMINACLIP: TruSeq3-SE.fa: 2: 30: 10 LEADING: 15 TRAILING: 15 SLIDINGWINDOW: 4: 15 MINLEN: 32) (Bolger et al. 2014), показання були зіставлені до збірки генома IR64 v.1.0 з використанням HISAT2 (версія 2.0.5) (–min-intronlen 20 – max-intronlen 10000 – downstream-transcriptome-Assembly – rna-strandness RF) (Kim et al. 2015) та генні структури передбачено StringTie (версія 1.3.3) із параметрами за замовчуванням (Pertea et al. 2015). Нарешті, всі набори генних моделей були інтегровані в одиничні набори генних моделей, заснованих на РНК. Для картографування білка ми використовували моделі генів IRGSP-1.0 та R498 (Du et al. 2017; Kawahara et al. 2013). Для прогнозування гена ab initio ми використовували SNAP (версія 2006-07-28) (Korf 2004) та AUGUSTUS (версія 3.3.1) (Stanke and Waack 2003). Для функціональної анотації ми використовували InterProScan (версія 5.2.4-63.0) (-f XML) (Jones et al. 2014). З результатів вилучено інформацію про домен та дані онтології генів (GO). Регіони, що повторюються, були виявлені REPEATMASKER (v.4.0.7) за допомогою mipsREdat_9.3p_Poaceae_TEs.fasta та налаштувань за замовчуванням.

Перевірка послідовності IR64 v.1.0

Порівняння стенограм

Ми провели гомологічний пошук білків IR64 проти репрезентативних генів IRGSP, передбачених IRGSP генів та R498, використовуючи BLASTP з порогом значення E -10 (Camacho et al. 2009). Гени IR64, яким не було гомологій з іншими генами, були зіставлені з послідовностями генома IR64 (Os-IR64-Draft-CSHL-1.0), IRGSP та R498 з використанням GMAP (2017-03-17) (-f gff3_gene) з ≥95% ідентичності та ≥90% охоплення. Докази експресії білків IR64 оцінювали, використовуючи дані RNA-seq. Ми нанесли на карту 16 одноразових зразків РНК-послідовності або з кореня, або з пагона, використовуючи BWA-0.7.15 з параметрами “mem-M -T 30”. Обробка та підрахунок зчитувань для кожного сайту виконувались за допомогою samtools-1.4 із параметрами “view -q 30 -F 0x100” та “mpileup -u -v”. Розраховували покриття RNA-seq для кожної транскрипції.

Наявність даних

Набори даних, сформовані під час поточного дослідження, доступні в Архіві читання послідовностей під номером приєднання PRJD88810. Геномна збірка IR64 v.1.0 доступна під номерами приєднання збірки DDBJ BLLQ01000001-BLLQ01000012. Всі геномні дані, проаналізовані в цьому дослідженні, можна завантажити та візуалізувати в Базі даних ROOTomics (https://rootomics.dna.affrc.go.jp/en/research/IR64), розміщуючи JBrowse для візуалізації даних анотації генома та сервера BLAST. Додаткові файли нижче доступні на FigShare. Таблиця S1. Дані анотацій про можливі відсутні гени в геномі IR64. Рисунок S1. Вирівнювання геному між геномом IRGSP-1.0 та лісами IR64. Червоні та сині крапки представляють вирівнювання вперед та назад, відповідно. Рисунок S2. Вирівнювання хромосом між R498 та IR64 v.1.0. Рисунок S3. Вирівнювання хромосом між IRGSP-1.0 та IR64 v.1.0. Рисунок S4. Вирівнювання хромосом хромосоми 6 від 13 Мбіт/с до 19 Мбіт/с. Рисунок S5. Хромосомний розподіл генів, зіставлених на незакріплених послідовностях IR64 v.1.0. Рисунок S6. Фракція відсутніх генних областей в IR64, охоплена парними зчитуваннями, отримана за допомогою послідовного зчитування послідовностей геному IR64. Рисунок S7. Розподіл генних онтологій. Додатковий матеріал доступний на figshare: https://doi.org/10.25387/g3.10058657.

Результати і обговорення

de novo складання послідовності геному IR64

Ми секвенували геном IR64, використовуючи послідовність зв’язаного зчитування, і отримали 910 мільйонів необроблених зчитувань, що еквівалентно 138 Гб (b368 ×) (Таблиця 1). Чернетка збірки геномів, заснована на 142 мільйонах зв’язаних зчитувань (∼56 ×), IR64-Chromium, складалася з 10 153 лісів загальною довжиною послідовності 384 Мб. Максимальна довжина і N50 лісів IR64-Chromium становили 6,9 та 1,2 Мб відповідно. Ми також секвенували геном IR64 за допомогою секвенування нанопор і отримали 1,4 мільйона необроблених зчитувань із середньою довжиною 1,45 кб, що еквівалентно 9,3 Гб (~ 24 ×) (Таблиця 1). Чернетка збірки геномів, заснована на послідовності нанопор, IR64-MinION, складалася з 3258 контигів із загальною довжиною послідовності 323 Мб. Максимальна довжина та N50 контигів IR64-MinION становили 1,4 Мб та 224 Кб відповідно. Розподіл зібраних довжин послідовностей відрізнявся між IR64-Chromium та IR64-MinION (рис. 2). У IR64-Chromium понад 80% лісів були коротшими за 10 кб. Однак 86% послідовностей геномів були покриті 4% ешафотів, довжина яких перевищувала 100 кб. На відміну від дробу коротких контигів (Перегляньте цю таблицю:

  • Переглянути вбудований
  • Переглянути спливаюче вікно