Передача стилів за допомогою варіаційних автокодер є перспективним підходом до гармонізації та аналізу даних RNA-Seq

Знайдіть цього автора на Google Scholar
Знайдіть цього автора на PubMed
Шукайте цього автора на цьому сайті
Запис ORCID для Д. Антонець
Для листування: [email protected]

Анотація

Мотивація Транскриптомічні дані часто використовуються для дослідження генів біомаркерів різних захворювань та біологічних станів. Найпоширенішими завданнями є гармонізація даних та прогнозування результатів лікування. До них обох можна звернутися за допомогою підходу передачі стилю. Як компоненти стилю можуть бути використані як технічні фактори, так і будь-які біологічні деталі проб, які ми хотіли б контролювати (стать, біологічний стан, обробка тощо).

Результати Запропоноване рішення передачі стилів базується на умовних варіаційних автокодерах, Y-автокодерах та розкладі змагальних ознак. Для кількісного вимірювання якості передачі стилю були використані класифікатори нейронних мереж, які передбачають стиль та семантику після тренувань на реальному вираженні. Порівняння з декількома існуючими підходами на основі передачі стилів показує, що запропонована модель має найвищу точність прогнозування стилів у всіх розглянутих наборах даних, маючи порівнянну або найкращу точність прогнозування семантики.

Зв'язок antonecnovel-soft.com

1. Вступ

Нова ера сучасних наук про життя розпочалася з розробки високопродуктивних методів секвенування нуклеїнових кислот - методів секвенування нового покоління (NGS). Сума поточних даних про геном і транскриптоми надзвичайна і зростає в геометричній прогресії. Методи секвенування окремих клітин дозволили ще більш детально описати транскриптомічний ландшафт, що дозволило розшифрувати дуже складну природу клітинних підтипів, проаналізувати їх закономірності розвитку та походження (Saliba et al., 2014; Stark et al., 2019).

В даний час загальновизнано, що профілі експресії генів живих клітин були результатом складної суміші різних біологічних процесів та технічних параметрів. На даний момент було кілька спроб змоделювати такий тип даних як комбінації певних низьковимірних уявлень, що відповідають різним біологічним шляхам та умовам (Xu et al., 2019). У цій роботі ми перевіряємо гіпотезу про те, чи можна ці атрибути розумно та керовано змінювати у silico за допомогою моделей глибокого навчання.

2 Передумови

3 методи

3.1 Набори даних

3.1.1 Атлас мишачих клітин (scMCA)

Цей набір даних, що включає численні профілі експресії генів одноклітинних мишей, був створений на економічно ефективній високопродуктивній платформі Microwell-seq (Han et al., 2018), що дозволило проаналізувати понад 400 000 одиничних клітин з 51 тканин мишей та органів, вилучених з декількох тварин у різні фізіологічні умови. Оригінальні дані scMCA містять профілі експресії генів для понад 800 основних типів клітин миші. Детальна анотація була надана авторами для понад 200 000 одиничних клітин. Детальний опис даних можна знайти в оригінальній роботі (Han et al., 2018) та в Інтернеті. Цей набір даних було обрано з наступних основних причин: (1) він містив величезну кількість даних, отриманих за послідовною методологією тією ж дослідницькою групою, таким чином, мабуть, робить технічну дисперсію менш глибокою; (2) оскільки зразки належать різним тваринам, різним органам/тканинам та фізіологічним умовам, можна побудувати модель для розкладання цих джерел варіацій.

3.1.2 Зіркова карта

Набір даних STARmap був використаний для налаштування гіперпараметрів та порівняльного тестування нашої моделі щодо кількох інших підходів (див. Нижче). Він містить значення експресії для 166 генів у 3700 клітинах з трьох окремих біологічних зразків миші медіальної префронтальної кори (Wang et al., 2018). Анотований набір даних взятий з https://github.com/YosefLab/scVI-data/raw/master/mpfc-starmap.loom у авторів фреймворка scVI (Lopez et al., 2018). Loom - це спеціалізований формат файлу на основі HDF5, придатний для великих наборів даних omics, що містить основну матрицю даних та додаткові шари анотацій. Loompy - бібліотеку Python для роботи з даними Loom можна знайти за адресою: http://loompy.org.

3.1.3 Сітківка ока

Оригінальний набір даних містить 27 499 клітин і 13 166 генів з двох партій (Shekhar et al., 2016). Цей набір даних також використовувався для порівняльного аналізу. Ми використовували кластерну анотацію з 15 типів клітин та попередньо оброблену та нормалізовану кількість експресії генів, надану авторами scVI (Lopez et al., 2018). Анотований набір даних можна завантажити з https://github.com/YosefLab/scVI-data/raw/master/retina.loom.

3.1.4 PBMC

Дані спочатку були вилучені із набору даних SRP073767 користувачем (Zheng et al. 2017). Це дані scRNA-seq з двох партій PBMC від здорового донора (4000 та 8000 PBMC, відповідно). Набір даних був підготовлений, як описано в роботі scVI (Lopez et al., 2018); анотований набір даних містив 12 039 клітин з 3346 генами. Набір даних був використаний для порівняльного аналізу. Дані про експресію генів можна завантажити з https://github.com/YosefLab/scVI-data/raw/master/gene_info.csv та відповідні метадані - з https://github.com/YosefLab/scVI-data/raw /master/pbmc_metadata.pickle.

3.1.5 PBMC, оброблений IFNβ

Для біологічної перевірки ми також використовували набір даних, що містить контрольні та інтерферон-бета-стимульовані РВМС (GSE96583) (Kang et al., 2018). Дані були взяті з прикладів scGen (https://github.com/theislab/scgen-reproducibility). Набір даних був наданий авторами (Lotfollahi et al., 2019a) як нормалізований та трансформований. Дані включали 18 868 клітин, що належать до 8 клітинних типів, і 6 998 генів за двох умов. Приклади можна знайти у їхньому сховищі проектів: https://nbviewer.jupyter.org/github/M0hammadL/scGen_notebooks/blob/master/notebooks/scgen_kang.ipynb.

3.2 Розробка моделі глибокого навчання

3.2.1 Архітектура автокодера

Ми використовували нелінійність Mish (Misra, D., 2019) та (mini) нормалізацію партії як в кодерах, так і в декодерах. Схема архітектури представлена на рис. 1. Схема дискримінатора є наступною: Input-FC (1024) -BatchNorm-LeakyReLU-FC (1024) -BatchNorm– LeakyReLU-FC (N_batches), де скорочення FC означає повністю з'єднані шари.

3.2.2 Навчання автокодеру

Для навчання нашого автокодера ми використовували середньоквадратичну похибку (MSE) як функцію втрат при реконструкції. Також була використана циклічна втрата послідовності: ми отримуємо кодування для міні-партії, робимо випадкову передачу стилю, а потім передаємо стиль назад при другому проходженні вперед через автокодер.

Реконструкція втрат між значеннями, отриманими таким чином, і початковим виразом є втратою консистенції циклу. Для того, щоб змусити приховане подання не містити жодної інформації про біологічний стан, ми максимізували ентропію Шеннона передбачуваних дискримінаторів як втрату генератора. Дискримінатор навчався з метою втрати журналу. Допоміжні втрати від Y-Autoencoders (Pattachiola et al., 2019) також були мінімізовані. Їх коефіцієнти були встановлені рівними, щоб зменшити розмірність пошуку гіперпараметрів.

Для регуляризації ми використовували покарання ваги L1 для автокодера разом з VAE-регуляризацією. Для змагальної стабілізації навчання ми використали шум експресії Гауса (Mescheder, 2018) з дисперсією 0,01 для дискримінатора. Крім того, для автокодера використовували відсікання градієнта для об'єднання норми та використовували дискримінатор. Підводячи підсумок, навчання нашої моделі може бути описано псевдокодом, показаним у додатковому файлі SF1.

Ваги для кожного терміна в автокодері, а також кількість шарів моделі та альфа-гіперпараметр були налаштовані за допомогою випадкового пошуку з приблизно 350 ітераціями набору даних STARmap. Оптимальними гіперпараметрами були такі: cvae_beta = 2e-5; adv_weight = 0,0000001; vae_lr = 0,001; num_epochs = 800; n_шарів = 2; альфа-шкала = 1,3; розмір_вузького місця = 30; form_consistentity_weight = 0,2; batch_size = 128. Для кращого розуміння цих гіперпараметрів та їх ролей див. файл додатків SF1 із псевдокодом.

Для подальшого аналізу виходів автокодера ми замінили передбачені негативні значення нулем. Кілька експериментів з активацією ReLU були використані як останній шар, щоб запобігти появі негативних виходів, але це призвело до поганої конвергенції моделі.

3.2.3 Архітектура та навчання класифікаторів метрик

Для кількісного вимірювання вірності передачі стилю та збереження семантики під час цієї процедури використовувались допоміжні класифікатори нейронних мереж. Вони потрібні лише для того, щоб виміряти ефективність фреймворків із завдання передачі стилю, і вони не брали участі в їх навчанні. Схема архітектури Input-FC (512) -BatchNorm-Mish-FC (256) -BatchNorm-Mish-FC (128) -BatchNorm-Mish-FC (OUTPUT_SIZE). Обидва класифікатори пройшли навчання за допомогою оптимізатора Адама протягом 450 епох із розміром міні-партії 128. Швидкість навчання була встановлена на 0,003 для класифікатора типу комірки та 0,00001 для класифікатора стилів. Ці гіперпараметри були підібрані вручну в рамках експериментів.

3.2.4 Інша структура архітектури та навчання

trVAE (Lotfollahi et al., 2019b). Було використано реалізацію з https://github.com/theislab/trvaep. Модель містила два приховані шари як в кодері, так і в декодері розмірами 128 і 32 відповідно. Розмір шару вузького місця був встановлений як 30 (як і у всіх інших рамках). Гіперпараметру альфа встановлено значення 0,0001. Модель тренувалася протягом 300 епох з розміром міні-партії 512 з терпінням на початку зупинки 50 епох.

scGEN (Lotfollahi et al., 2019a). Було використано реалізацію з https://github.com/theislab/scgen. Для вузького місця було встановлено 30 нейронів, усі інші гіперпараметри використовували налаштування за замовчуванням.

scVI (Лопес та ін., 2018). Було використано реалізацію з https://github.com/YosefLab/scVI. Усі гіперпараметри використовували параметр за замовчуванням, крім кількості прихованих змінних, яке було встановлено на 30.

CycleGAN (Zhu et al., 2017). Було використано реалізацію з https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix. Оскільки ця реалізація повинна була використовуватися для даних про зображення, ми змінили архітектуру автокодера на Input-InstanceNorm-ReLU-FC (365) -InstanceNorm-ReLU-FC (30) - In-stanceNorm-ReLU-FC (365 ) -InstanceNorm-ReLU-FC (OUTPUT_SIZE) для всіх наборів даних, крім STARmap, де прихований шар мав 94 нейрони замість 365 через меншу вхідну розмірність. Схема розрізнення була змінена на Input-InstanceNorm-ReLU-FC (365) -InstanceNorm-ReLU-FC (1). Функція втрати дискримінатора була встановлена на двійкову перехресну ентропію замість середньої квадратичної помилки. Всю іншу інфраструктуру та гіперпараметри залишено без змін.

3.2.5 Процедура калібрування

Ще одним простим підходом для перевірки моделей є те, що ми називаємо процедурою калібрування. Він призначений для контролю, що збереження оригінального стилю зразка під час проходження зразка через модель забезпечує менші відхилення виразу, ніж довільна передача стилю. А саме, ми беремо зразок, передаємо його стиль усіма можливими способами та перевіряємо, чи L2-відстань між вихідним та декодованим виразом досягає найменшого значення, коли використовується початковий зразок стилю. Можна сприймати це як простий класифікатор, заснований на правилах.

3.3 Біологічна оцінка та підтвердження

3.3.1 Побудова ділянок МА

Кожна точка на MA-ділянці є геном. Суму експресії кожного гена обчислювали у всіх зразках, що належать до певного типу клітин в одному стані, і додавали 1,0, щоб уникнути ділення на нуль проблем. Абсциса обчислюється як середнє значення log2-трансформованої експресії гена у двох порівняних станах. Ордината - це перетворення log2 складчастої зміни виразу між двома порівняними станами.

2.3.2 Диференціальна експресія генів та аналіз збагачення наборів генів

З даними scMCA диференціальний аналіз експресії генів проводили з використанням кількості експресії, нормалізованої за RPM. Статистичну значимість оцінювали за допомогою тесту Манна-Уітні з багаторазовим випробовуванням корекції р-величини за допомогою процедури FDR. Кілька клітинних типів обробляли окремо: (1) стромальні/просвітні/альвеолярні клітини - ті, які функціонально беруть участь у розвитку та лактації молочних залоз та (2) дендритні клітини - клітини, що представляють антиген, які, як очікувалося, будуть мати менш глибокі відмінності між незайманою, вагітною та інволюцією. штатів. Аналіз збагачення GO- та KEGG проводили за допомогою Інтернет-ресурсу ShinyGO (v0.60) (Ge and Jung, 2018). Списки мишачих генів, асоційовані з певними категоріями GO, були взяті з веб-переглядача генів на порталі Mouse Genome Informatic (Bult et al., 2019).

З даними IFNβ, що обробляються/контролюють PBMC scRNA-Seq, диференціальний аналіз експресії генів проводили або за допомогою тесту Манна-Уітні, або за допомогою Уелча з коригуванням р-значення Бонферроні. Аналіз збагачення GO-термінів проводили за допомогою пакета Python goenrich (https://github.com/jdrudolph/goenrich). Усі подробиці можна знайти в блокнотах Jupyther у нашому сховищі проектів.

4 Результати

Наше дослідження мало на меті розв’язати інформацію про тип клітини та біологічний стан у низькомірному поданні даних про експресію генів. Оскільки дані про експресію генів є більш зрозумілими та звичними для біоінформатиків, а також придатні для подальших аналізів, ніж низькорозмірні вбудовування, ми приділили більше уваги оцінці результатів виходу нашої моделі, а не прихованому поданню. Однак ми також повідомляємо дві метрики, пов'язані з прихованим поданням, а саме чистоту knn та ентропію змішування порцій (Xu et al., 2019). Сюжети, що ілюструють

Роз'єднання також можна проілюструвати на наступних прикладах. На рис. 2 та рис. 3 зображені 2D-проекції тестових зразків, отриманих з tSNE, використовуючи або вихідні значення експресії генів, або відновлену експресію, отриману за допомогою нашої моделі, відповідно. Зразки фарбують відповідно до типів клітин (A) та до умов (B). Можна легко побачити кластери, що відповідають типам клітин та умовам на обох цих ділянках. Однак коли подібну візуалізацію будували з використанням вилучених прихованих зображень зразків як вхідних даних (рис. 4), не було кластерів, що відповідають різним фізіологічним станам, але все ж спостерігалася кластеризація типів клітин. Ми також отримали проекції низьких розмірів scMCA та GSE96583 за допомогою UMAP. Було виявлено, що цифри є більш інформативними, і існувала очевидна кластеризація точок даних scMCA навіть на латерах. Відповідні малюнки S1 та S2 можна знайти в додатковому файлі SF2.

Використовували необроблені значення експресії, зразки фарбували відповідно до типів клітин (A) та фізіологічного стану (B). Здивування tSNE було встановлено на 30.