Місцевий фітнес-ландшафт зеленого флуоресцентного білка

Карен С. Саркісян

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая 16/10, 117997 Москва, Росія

2 Нижегородська державна медична академія, пл. Мініна 10/1, 603005 Нижній Новгород, Росія

3 Центральноєвропейський технологічний інститут, Університет Масарика, Брно, Чеська Республіка

4 Програма біоінформатики та геноміки, Центр геномного регулювання (CRG), Барселонський інститут науки і технологій, 88 Dr. Aiguader, 08003 Барселона, Іспанія

5 Universitat Pompeu Fabra (UPF), 08003 Барселона, Іспанія

Дмитро Олександрович Болотін

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая, 16/10, 117997 Москва, Росія

3 Центральноєвропейський технологічний інститут, Університет Масарика, Брно, Чеська Республіка

Маргарита В. Меєр

4 Програма біоінформатики та геноміки, Центр геномного регулювання (CRG), Барселонський інститут науки і технологій, 88 Dr. Aiguader, 08003 Барселона, Іспанія

5 Universitat Pompeu Fabra (UPF), 08003 Барселона, Іспанія

Дінара Р. Усманова

4 Програма біоінформатики та геноміки, Центр геномного регулювання (CRG), Барселонський інститут науки і технологій, 88 Dr. Aiguader, 08003 Барселона, Іспанія

5 Universitat Pompeu Fabra (UPF), 08003 Барселона, Іспанія

6 Московський фізико-технічний інститут, Інститутський переулок 9, м. Долгопрудний, 141700, Росія

Олександр Сергійович Мішин

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая 16/10, 117997 Москва, Росія

2 Нижегородська державна медична академія, пл. Мініна 10/1, 603005 Нижній Новгород, Росія

Георгій Васильович Шаронов

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая 16/10, 117997 Москва, Росія

7 Медичний факультет МДУ, просп. Ломоносова. 31/5 119192 Москва, Росія

Дмитро Миколайович Іванков

4 Програма біоінформатики та геноміки, Центр геномного регулювання (CRG), Барселонський інститут науки і технологій, 88 Dr. Aiguader, 08003 Барселона, Іспанія

5 Universitat Pompeu Fabra (UPF), 08003 Барселона, Іспанія

8 Лабораторія фізики білків, Інститут досліджень білків Російської академії наук, вул. Інститутська, 4, м. Пущино, Московська область, 142290, Росія

Ніна Григорівна Божанова

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая 16/10, 117997 Москва, Росія

Михайло Сергійович Баранов

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая 16/10, 117997 Москва, Росія

9 Російський національний дослідницький медичний університет імені Пирогова, Островітянов 1, Москва, 117997, Росія

Онуралп Сойлемез

4 Програма біоінформатики та геноміки, Центр геномного регулювання (CRG), Барселонський інститут науки і технологій, 88 Dr. Aiguader, 08003 Барселона, Іспанія

5 Universitat Pompeu Fabra (UPF), 08003 Барселона, Іспанія

Богатирьова Наталія Сергіївна

4 Програма біоінформатики та геноміки, Центр геномного регулювання (CRG), Барселонський інститут науки і технологій, 88 Dr. Aiguader, 08003 Барселона, Іспанія

5 Universitat Pompeu Fabra (UPF), 08003 Барселона, Іспанія

8 Лабораторія фізики білків, Інститут досліджень білків Російської академії наук, вул. Інститутська, 4, м. Пущино, Московська область, 142290, Росія

Власов Петро К.

4 Програма біоінформатики та геноміки, Центр геномного регулювання (CRG), Барселонський інститут науки і технологій, 88 Dr. Aiguader, 08003 Барселона, Іспанія

5 Universitat Pompeu Fabra (UPF), 08003 Барселона, Іспанія

Єгов Євген Сергійович

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая 16/10, 117997 Москва, Росія

Марія Д. Логачова

9 Російський національний дослідницький медичний університет імені Пирогова, Островітянов 1, Москва, 117997, Росія

10 А.А. Інститут проблем передачі інформації імені Харкевича Російської академії наук, Москва, Росія

11 Кафедра біоінформатики та біоінженерії МДУ, Москва, Росія

Кондрашов Олексій Сергійович

11 Кафедра біоінформатики та біоінженерії МДУ, Москва, Росія

12 Кафедра екології та еволюційної біології Мічиганського університету, Ен-Арбор, Мічиган, США

Дмитро М. Чудаков

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая 16/10, 117997 Москва, Росія

3 Центральноєвропейський технологічний інститут, Університет Масарика, Брно, Чеська Республіка

Катерина Володимирівна Путінцева

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая 16/10, 117997 Москва, Росія

3 Центральноєвропейський технологічний інститут, Університет Масарика, Брно, Чеська Республіка

Ільгар З. Мамедов

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая 16/10, 117997 Москва, Росія

3 Центральноєвропейський технологічний інститут, Університет Масарика, Брно, Чеська Республіка

Ден С. Тавфік

13 Відділ біологічної хімії Інституту науки Вейцмана, Реховот 76100, Ізраїль

Костянтин Олександрович Лук’янов

1 Інститут біоорганічної хімії імені Шемякіна-Овчиннікова, Міклухо-Маклая 16/10, 117997 Москва, Росія

2 Нижегородська державна медична академія, пл. Мініна 10/1, 603005 Нижній Новгород, Росія

Федір А. Кондрашов

4 Програма біоінформатики та геноміки, Центр геномного регулювання (CRG), Барселонський інститут науки і технологій, 88 Dr. Aiguader, 08003 Барселона, Іспанія

5 Universitat Pompeu Fabra (UPF), 08003 Барселона, Іспанія

14 Institució Catalana de Recerca i Estudis Avançats (ICREA), 23 Стор. Lluís Companys, 08010 Барселона, Іспанія

Пов’язані дані

Анотація

Ми проаналізували місцевий ландшафт фітнесу avGFP, оцінивши рівні флуоресценції генотипів, отриманих шляхом випадкового мутагенезу послідовності avGFP (рис. 1). Ми використали сортування клітин, що активується флуоресценцією, та послідовно розподілили всю область кодування GFP, щоб проаналізувати флуоресценцію багатьох тисяч генотипів, створених шляхом випадкового мутагенезу послідовності дикого типу (Додаткова інформація S2 та розширені дані, рис. 1). Ми застосували декілька стратегій, щоб мінімізувати помилку нашої оцінки флуоресценції (Додаткова інформація S3.4 та S4.4), яка була оцінена на основі тисяч незалежних вимірювань послідовності дикого типу (коефіцієнт помилково негативних помилок 0,08%) та генотипів, що включають мутації, відомі для усунення флуоресценції (коефіцієнт помилково позитивних помилок 0,24%). Наш остаточний набір даних включав 56 086 унікальних послідовностей нуклеотидів, що кодують 51 715 різних білкових послідовностей. Наша процедура вводила в середньому 3,7 мутації на послідовність генів, і більшість досліджуваних генотипів містили кілька, до 15, помилкових мутацій. Тим не менше, оскільки загальна кількість можливих послідовностей зростає експоненціально із числом мутацій, частка послідовностей, відібраних для вибірки, була незначною для послідовностей, що містять більше двох мутацій (Розширена таблиця даних 1). Ми використовували ці дані для обстеження місцевого фітнес-ландшафту GFP, аналізуючи вплив одиночних, подвійних та множинних мутацій.

фітнес-ландшафт

a, Дикий тип avGFP (в центрі) та більшість поодиноких мутантів (внутрішнє коло) флуоресцирують зеленим кольором. Генотипи з множинними мутаціями можуть виявляти негативний епістаз, поєднання нейтральних мутацій, що створюють не флуоресцентні фенотипи (сірий), або позитивний епістаз, завдяки чому мутація в нефлуоресцентному генотипі відновлює флуоресценцію. b, Послідовність GFP розташована по колу, кожна колонка являє собою один амінокислотний сайт. У першому колі інтенсивність кольорів квадратів вказує на яскравість одиничної мутації на відповідному ділянці щодо дикого типу, показаного в центрі. Сайти з позитивною та негативною епістатичною взаємодією між парами мутацій пов’язані відповідно зеленою та чорною лініями. У колах, віддалених від центру, що представляють генотипи з множинними мутаціями, фракція колонки забарвлена ​​в зелений (чорний) колір, що представляє частку генотипів, що відповідає високій (низькій) флуоресценції серед усіх досліджуваних генотипів з мутацією в цьому місці. Ножиці позначають місце обмеження.

Розподіл ефектів на придатність індивідуальних мутаційних мутацій аналізували шляхом порівняння розподілу флуоресценції амінокислотних послідовностей avGFP дикого типу, позначених різними молекулярними штрих-кодами, та розподілу флуоресценції послідовностей, що несуть одну мутацію (Додаткова інформація S4.1). Ми виявили, що щонайменше 75% мутацій мали шкідливий вплив на флуоресценцію, включаючи 9,4% одиничних мутацій, що спричиняють зменшення флуоресценції> в 5 разів, але для багатьох мутацій ефект був незначним (рис. 2а). Відповідно, генотипи з множинними мутаційними мутаціями частіше мали низьку флуоресценцію, а більшість генотипів, що несли п’ять і більше мутаційних місенсів, були не флуоресцентними (Розширені дані, рис. 2). Мутації з сильним впливом на флуоресценцію бажано знаходитись у місцях, кодованих амінокислотними залишками, орієнтованими всередину на хромофор (рис. 2б, в), що узгоджується з даними щодо інших білків про перевагу шкідливих мутацій перед цільовими захороненими залишками 9, 11 - 13. Вплив мутацій на флуоресценцію позитивно корелював із збереженням ділянки (Розширені дані, рис. 3а, коефіцієнт кореляції рангового коефіцієнта Спірмена 0,40 ± 1,44 × 10 −10) і рідше знаходили в ортологічних послідовностях (розширені дані, рис. 3b). Тим не менше,

10% мутантних станів, що надають нефлуоресцентний фенотип, тим не менше були зафіксовані в довгостроковій еволюції (Розширені дані, рис. 3b), що вказує на те, що епістаз впливає на ландшафт фітнесу avGFP 16 .

a, Розподіл флуоресценції для незалежно виміряних 2442 послідовностей дикого типу (сірий), для 1114 одиничних мутацій (синій) та розрахункова частка нейтральних мутацій (білий). b, Поодинокі мутації місенсу, що сильно впливають на флуоресценцію (фіолетові), як правило, виникають на ділянках із внутрішньо орієнтованими залишками, c, показано на вибраному бета-ланцюзі структури GFP.

a, Гіпотетичне представлення негативного та позитивного епістазу як функції кількості одиничних мутацій від avGFP. b,Частка спостережуваних нефлуоресцентних генотипів (червона) та очікувана частка нефлуоресцентних генотипів, розрахована як сума log-впливу на флуоресценцію окремих мутацій (синій). c, Розподіли епістазу для негативних та позитивних епістазів різної сили, із очікуваною швидкістю помилкових виявлень показано сірим кольором.

У одновимірному ландшафті фітнес - це монотонна функція проміжної змінної, яка називається фітнес-потенціалом 21, 22, що є сумою впливів окремих мутацій. Ми використовували багаторазову регресію, враховуючи неепістатичну функцію фітнесу, згідно з якою логарифмічна флуоресценція F дорівнює лінійному предиктору, фітнес-потенціалу, p, такий що F = f (p) = p. Ця найпростіша, неепістатична модель пояснила лише 70% початкової дисперсії вибірки (σ 2 = 1,12 та σ 2 = 0,34 до та після застосування моделі відповідно). Використовуючи дисперсію вимірювань флуоресценції дикого типу 2442, ми оцінили це

1% початкової дисперсії вибірки можна віднести до шуму (σ 2 = 0,0097), що вказує на те, що решта 29% дисперсії вибірки неможливо пояснити без епістазу.

Найпростіша форма епістатичної функції фітнесу - це коли фітнес є монотонною нелінійною функцією з p 21, 22. Відсутність генотипів з проміжною флуоресценцією (розширені дані, рис. 5а) свідчить про те, що ландшафт avGFP fitneses можна описати за допомогою усіченої функції фітнесу 23. Отже, ми змоделювали F як сигмоїдну функцію p, що пояснювало 85% початкової дисперсії вибірки (σ 2 = 0,17). Більш складна сигмоподібна фітнес-функція, вдосконалена за допомогою нейромережевого підходу (Додаткова інформація S4.6), пояснила 93,5% початкової дисперсії вибірки (σ 2 = 0,065, розширені дані, рис. 5), підтверджуючи, що ландшафт фітнесу в основному може бути представлена ​​одновимірною пороговою функцією (рис.4), яка може виникнути внаслідок спільного вкладу мутацій у стабільність білка 8, 13, 14, 20, 24. Середня флуоресценція одиночних мутантів avGFP як функція передбачуваної дестабілізації білка, ΔΔG, виявляє поріг близько 7–9 ккал/моль (рис. 4). Цікаво, що приховане значення, виявлене штучною нейронною мережею для одиночних мутантів, корелювало із передбачуваним ΔΔG (рис. 4, розширені дані, рис. 5f), підтверджуючи ймовірний вплив стабільності білка на природу епістазу в avGFP. Порогова функція фітнесу робить надзвичайно хорошу роботу в наближенні всього пояснення фітнесу

95% усіх відхилень. Однак, беручи до уваги рівень помилок нашого набору даних, ми підраховуємо, що принаймні 0,3% генотипів неможливо пояснити функцією порогової придатності (Додаткова інформація S4.5 та Розширені дані Рис. 5d), що представляє випадки багатовимірного епістазу 2, 5, 7 .

Середня флуоресценція GFP з одиничними мутаціями як функція їх впливу на прогнозовану енергію згортання (∆∆G), з SD, накладеною на незалежно отриману сигмоподібну функцію фітнесу, передбачену нейронною мережею (оранжева лінія).

Нормалізована швидкість збіжної еволюції до кінцевих та реконструйованих родових амінокислотних станів для кожної коробки відстані (сірі крапки). Очікувана (оранжева лінія) та спостерігається в експериментальних даних (оранжеві точки) ймовірність того, що одинична мутація залишається флуоресцентною, оскільки послідовність накопичує інші заміни. Очікувана (зелена лінія) та спостережувана (зелені точки) ймовірність того, що нефлуоресцентна мутація стане флуоресцентною з розбіжністю послідовностей. Стовпчики представляють біноміальний пропорційний довірчий інтервал (рівень довіри 68%).

Широке збіг наших даних із поширеністю епістазів при тривалій еволюції свідчить про те, що форму місцевого фітнес-ландшафту можна екстраполювати у більшому масштабі. Проте епістаз між сайтами, що кодують залишки з безпосередньою взаємодією в структурі білка, був рідкісним, на відміну від спостереження таких випадків при тривалій еволюції 16 та аналізу мутації домену RRM 12. Таким чином, місцевий ландшафт фітнесу, що охоплює кілька мутацій з одного піку фітнесу, може бути апроксимований одновимірною функцією порогового потенціалу фітнесу, однак, ця проста функція фітнесу може бути недоречною для опису ландшафтів фітнесу, які включають фітнес-хребти, що з'єднують послідовності більш різнорідних ортологів 27. Залишається дослідити природу глобальних фітнес-ландшафтів, особливо взаємодію між місцевими та глобальними масштабами.