CReM: хімічно обґрунтована система мутацій для формування структури

Анотація

Генератори конструкцій широко використовуються в проектних дослідженнях de novo, і їх ефективність суттєво впливає на результат. Підходи, засновані на моделях глибокого навчання та звичайних підходах на основі атомів, можуть призвести до недійсних структур і не вирішити їх синтетичні питання доцільності. З іншого боку, традиційні підходи, засновані на реакціях, призводять до синтетично здійсненних сполук, але новизна та різноманітність отриманих сполук можуть бути обмеженими. Підходи, засновані на фрагментах, можуть забезпечити як кращу новизну, так і різноманітність утворених сполук, але питання синтетичної складності утвореної структури раніше явно не розглядався. Тут ми розробили нову структуру формування фрагментних структур, яка за своєю конструкцією дає хімічно допустимі структури та забезпечує гнучкий контроль за різноманітністю, новизною, синтетичною складністю та хемотипами генерованих сполук. Фреймворк був реалізований як модуль Python з відкритим кодом і може бути використаний для створення власних робочих процесів для дослідження хімічного простору.

crem

Вступ

Наркотичний хімічний простір надзвичайно величезний - його розмір оцінюється в

10 33 сполуки [1]. Найближчим часом буде неможливо перелічити цей простір або здійснити будь-який вичерпний пошук. Тому методи та стратегії дослідження цього простору ефективно привертають яскравий дослідницький інтерес. Однією з популярних стратегій є de novo design - модельоване покоління нових хімічних структур з перспективними прогнозованими властивостями [2, 3]. Існують дві основні стратегії генерації структур: (i) ітераційна генерація структур відповідно до прогнозів моделей та (ii) генерація структур, що мають бажаний набір властивостей безпосередньо за допомогою моделей машинного навчання (ML) (наприклад, зворотний QSAR або генеративні нейронні мережі).

Перша стратегія широко використовується, і багато досліджень описують різні схеми впровадження [4,5,6,7,8,9]. Загальний робочий процес включає: (i) генерацію або вибір вихідних структур, (ii) оцінку генерованих структур за моделлю (моделями) (QSAR, док-станція, фармакофори тощо), (iii) вибір найбільш перспективних кандидатів, ( iv) створення нових структур на основі вибраних та повернення до етапу (ii). Цю процедуру повторюють до утворення сполук з бажаними властивостями. У цьому випадку етапи генерації структури та оцінки властивостей розділяються. Отже, можна використовувати будь-яку комбінацію підходів до створення структур та у моделях кремнію для прогнозування властивостей сполук. Ми можемо розділити традиційні підходи на три групи: генератори структур на основі атомів, фрагментів та реакцій, кожен із яких має свої переваги та проблеми (табл. 1).

Підходи на основі атомів представляють методи "ab initio" серед генераторів структур і використовують прості правила, такі як "додавати/видаляти/замінювати атом/зв'язок", щоб модифікувати вхідні структури та генерувати нові [10]. Теоретично, має бути можливо створити всі можливі структури, використовуючи ці правила, що може призвести до високої новизни та різноманітності перелічених структур. Однак буде потрібно багато етапів генерації, що призведе до комбінаторного вибуху. Тому підходи на основі атомів більше підходять для систематичного дослідження місцевого хімічного простору. Хімічну валідність слід додатково контролювати під час формування конструкції, щоб уникнути помилкових структурних змін. Однак головним питанням атомних підходів є синтетична доцільність, яку неможливо контролювати в процесі генерації і може призвести до синтетично менш доступних структур. Наскільки нам відомо, існує лише одна реалізація генератора на основі атомів - Molpher [10].

Реакційні підходи генерують нові сполуки, застосовуючи правила зі списку закодованих хімічних перетворень до бібліотеки реагентів [7]. Оскільки це зрозуміло інтуїтивно, підходи, засновані на реакціях, забезпечують вищу новизну та різноманітність лише за кілька етапів генерації порівняно з підходами на основі атомів, які можуть вимагати значно більше кроків для досягнення тієї ж мети. Підходи, засновані на реакціях, вносять значні зміни в структуру під час утворення сполук, і, отже, здаються більш придатними для грубого дослідження хімічного простору. Завдяки обширній бібліотеці реагентів також має бути можливо перерахувати близькі аналоги еталонної сполуки для локального дослідження хімічного простору. Синтетична доцільність утворених сполук та доступний синтетичний шлях - головні переваги підходів на основі реакцій. Застосовність такого роду підходів була продемонстрована в ряді досліджень [7, 11,12,13]. Тим не менше, обмежена кількість правил (переважно враховуються лише реакції сполучення) та обмежений розмір бібліотек реагентів можуть стримувати ці алгоритми від дослідження більшого хімічного простору (отже, втрачаючи новизну та різноманітність утворених сполук).

Незважаючи на недавні успіхи в генеративних моделях глибоких нейронних мереж, підходи на основі фрагментів здаються привабливою альтернативою, оскільки вони забезпечують високу гнучкість дослідження хімічного простору з розумними зусиллями і можуть поєднуватися з будь-яким підходом моделювання. Вони можуть також вирішити проблему синтетичної доступності, але це досі не досліджувалося. На даний момент не існує програмного забезпечення з відкритим кодом, яке б реалізовувало різні режими маніпулювання фрагментами (мутація, вирощування та посилання) та забезпечує зручний програмний інтерфейс для інтеграції зі стороннім програмним забезпеченням для розробки робочих процесів власного пошуку. У цьому дослідженні ми розробили структуру переліку структур на основі фрагментів, яка забезпечує всі основні функції для маніпулювання фрагментами та легко інтегрується зі стороннім програмним забезпеченням. Підхід заснований на визначенні взаємозамінних фрагментів з баз даних відомих сполук для здійснення хімічно обґрунтованих мутацій (CReM) вхідних структур. Він генерує хімічно допустимі структури за проектом і дозволяє побічно контролювати синтетичну доцільність перелічених сполук, а також їх хемотипів.

Впровадження

Ідея взаємозамінних фрагментів - ядро ​​розробленого підходу - безпосередньо пов'язана з підходом відповідних молекулярних пар з урахуванням їх локального контексту [33]. Взаємозамінні фрагменти - це фрагменти, що трапляються в одному і тому ж локальному хімічному контексті в структурах відомих сполук (рис. 1). Атоми в певному радіусі навколо точок прикріплення фрагмента представляють цей локальний хімічний контекст. Ми замінюємо один фрагмент іншим, що має такий самий хімічний контекст, що має призвести до хімічно валідної та здійсненної структури. Таким чином, за проектом гарантується хімічна придатність генерованих структур. Інтуїтивно можна також очікувати, що отримані сполуки є синтетично здійсненними.