Блок HSIC Lasso: безмодель виявлення біомаркерів для надвисоких розмірних даних

Гектор Кліменте-Гонсалес, Хлое-Агате Азенкотт, Самуель Каскі, Макото Ямада, Блок HSIC Lasso: безмодельне виявлення біомаркерів для даних надвисоких розмірів, Біоінформатика, том 35, випуск 14, липень 2019, сторінки i427 – i435, https: //doi.org/10.1093/bioinformatics/btz333

блокувати

Анотація

Пошук нелінійних взаємозв’язків між біомолекулами та біологічним результатом є обчислювально дорогим та статистично складним. Існуючі методи мають важливі недоліки, включаючи, серед іншого, відсутність економності, непуклості та обчислювальних витрат. Тут ми пропонуємо блок HSIC Lasso, нелінійний селектор функцій, який не містить попередніх недоліків.

Ми порівнюємо блок HSIC Lasso з іншими найсучаснішими методами вибору ознак як у синтетичних, так і в реальних даних, включаючи експерименти над трьома типовими геномними даними: мікрочипи експресії генів, секвенування одноклітинної РНК та дослідження асоціацій у цілому по геному. . У всіх випадках ми спостерігаємо, що функції, обрані блоком HSIC Lasso, зберігають більше інформації про основну біологію, ніж ті, що відібрані іншими методами. Як доказ концепції ми застосували блок HSIC Lasso до експерименту з секвенування одноклітинної РНК на гіпокампі миші. Ми виявили, що багато генів, пов'язаних у минулому з розвитком та функцією мозку, беруть участь у біологічних відмінностях між типами нейронів.

Блок HSIC Lasso реалізований в пакеті Python 2/3 pyHSICLasso, доступному на PyPI. Вихідний код доступний на GitHub (https://github.com/riken-aip/pyHSICLasso).

Додаткові дані доступні на веб-сайті Bioinformatics.

1. Вступ

Відкриття біомаркерів, мета багатьох експериментів з біоінформатики, спрямоване на виявлення кількох ключових біомолекул, які пояснюють більшість спостережуваних фенотипів. Без сильної попередньої гіпотези ці молекулярні маркери повинні бути ідентифіковані на основі даних, отриманих за допомогою високопродуктивних технологій. На жаль, пошук відповідних молекул є комбінаторною проблемою: для d ознак необхідно враховувати 2 d бінарні варіанти. Оскільки кількість ознак значно перевищує кількість зразків, виявлення біомаркерів є проблемою великих розмірів. Статистичні проблеми, викликані такими просторовими просторами, були детально розглянуті в інших місцях (Clarke et al., 2008; Johnstone and Titterington, 2009). Загалом, через прокляття розмірності, розміщення моделей у багатьох розмірах та на невеликій кількості зразків надзвичайно важко. Більше того, оскільки біологія є складною, проста статистична модель, така як лінійна регресія, може бути не в змозі знайти важливі біомаркери. Ті, що виявляються в таких експериментах, часто важко відтворити, що передбачає переобладнання. Дослідження простору рішень та пошук справжніх біомаркерів є не тільки статистично складними, але й обчислювально дорогими.

З точки зору машинного навчання, виявлення біомаркерів може бути сформульоване як проблема вибору ознак: визначення найкращого підмножини ознак для розділення між категоріями або прогнозування безперервної реакції. За останні десятиліття було запропоновано багато алгоритмів вибору функцій, які мають справу з високомірними наборами даних. Через труднощі, пов’язані з високою розмірністю, лінійні методи, як правило, вибирають особливості в біоінформатиці. Широко використовуваний лінійний селектор функцій - оператор найменшої абсолютної усадки та вибору, або Лассо (Тібшірані, 1996). Лассо підходить до лінійної моделі між вхідними ознаками та фенотипом, мінімізуючи суму найменших квадратних втрат та штрафний термін ℓ 1. Баланс між найменшими квадратними втратами та штрафом гарантує, що модель пояснює лінійне поєднання ознак, при цьому кількість характеристик у моделі залишається невеликою. Однак у багатьох випадках біологічні явища не поводяться лінійно. У таких випадках немає жодних гарантій, що Лассо зможе зафіксувати ці нелінійні співвідношення або відповідний розмір ефекту для їх представлення.

За останнє десятиліття було запропоновано декілька нелінійних алгоритмів вибору об’єктів для багатовимірних наборів даних. Одна з найбільш широко використовуваних, називається Sparse Additive Model, або SpAM (Ravikumar et al., 2009), моделює результат як розріджену лінійну комбінацію нелінійних функцій на основі ядер. Однак, оскільки SpAM передбачає адитивну модель над вибраними ознаками, він не може вибрати важливі ознаки, якщо фенотип не може бути представлений адитивними функціями вхідних функцій - наприклад, якщо між ознаками існує мультиплікативний зв'язок (Yamada et al., 2014 ).

Інше сімейство нелінійних селекторів ознак базується на асоціаціях: вони обчислюють статистичну оцінку асоціації між кожною вхідною ознакою та результатом і відповідно ранжують ознаки. Оскільки ці підходи не передбачають жодної моделі результату, вони можуть виявляти важливі особливості, доки існує асоціація. Використовуючи нелінійну міру асоціації, таку як взаємна інформація (Cover and Thomas, 2006) або Критерій незалежності Гільберта – Шмідта (HSIC) (Gretton et al., 2005), вони вибирають ознаки з найсильнішою залежністю від фенотип. Однак методи, засновані на асоціаціях, не враховують надмірність між ознаками, що часто трапляється в біологічних наборах даних, оскільки вони не моделюють взаємозв’язків між ознаками. Отже, зазвичай вибирається багато зайвих функцій, що заважає інтерпретації. Це важливо в таких додатках, як виявлення цільових препаратів, де можна перевірити лише невелику кількість цілей, і дуже важливо розрізнити найважливішу ціль серед багатьох інших найпопулярніших цілей.

Для вирішення проблеми зайвих функцій Peng et al. (2005) запропонував алгоритм мінімальної надмірності надмірності (mRMR). mRMR може вибрати набір непотрібних ознак, які мають високу асоціацію з фенотипом, одночасно караючи вибір взаємозалежних ознак. Ding and Peng (2005) використовували mRMR для вилучення біомаркерів з даних мікрочипів, виявивши, що вибрані гени вловлювали кращу мінливість у фенотипах, ніж ті, що ідентифіковані сучасними підходами. Однак mRMR має три основні недоліки: проблема оптимізації дискретна; це має бути вирішено жадібним підходом, і взаємна оцінка інформації є складною (Walters-Williams and Li, 2009). Більше того, невідомо, чи має цільова функція mRMR хороші теоретичні властивості, такі як субмодульність (Fujishige, 2005), які гарантували б оптимальність рішення.

Нещодавно Ямада та ін. (2014) запропонував алгоритм mRMR на основі ядра, який називається HSIC Lasso. Замість взаємної інформації HSIC Lasso використовує HSIC (Gretton et al., 2005) для вимірювання залежності між змінними. Крім того, він використовує penalty 1 штрафний термін для вибору невеликої кількості функцій. Це призводить до опуклої задачі оптимізації, для якої, таким чином, можна знайти глобально оптимальне рішення. На практиці було встановлено, що HSIC Lasso перевершує mRMR в декількох експериментальних умовах (Yamada et al., 2014). Однак HSIC Lasso вимагає багато пам'яті: його складність пам'яті становить O (d n 2) ⁠, де d - кількість ознак, а n - кількість зразків. Отже, HSIC Lasso не можна застосовувати до наборів даних з тисячами зразків, які сьогодні широко поширені в біології. Для усунення цього недоліку пропонується версія MapReduce HSIC Lasso, і вона може за лічені години вибрати елементи в надвисоких розмірних параметрах (10 6 функцій, 10 4 зразки) (Yamada et al., 2018). Однак для цього потрібна велика кількість обчислювальних вузлів, недоступних для загальних лабораторій. Оскільки вона спирається на наближення Ністрема грам-матриць (Schölkopf and Smola, 2002), остаточна задача оптимізації вже не є опуклою, і тому пошук глобально оптимального рішення не може бути легко гарантованим.

У цій статті ми пропонуємо блок HSIC Lasso: простий, але ефективний нелінійний алгоритм вибору ознак, заснований на HSIC Lasso. Ключова ідея полягає у використанні нещодавно запропонованого блоку оцінки HSIC (Zhang et al., 2018) для оцінки умов HSIC. Розбиваючи дані на блоки розміром B ≪ n ⁠, складність пам'яті HSIC Lasso переходить від O (d n 2) до O (dnB) ⁠. Крім того, проблема оптимізації блоку HSIC Lasso залишається опуклою. Застосовуючи його до синтетичних даних та біологічних наборів даних, ми показуємо, що блок HSIC Lasso може застосовуватися до різних параметрів і вигідно порівнюється з ванільним алгоритмом HSIC Lasso та іншими підходами до вибору функцій, лінійним та нелінійним, оскільки він вибирає функції більше інформативні про біологічний результат. Подальші міркування щодо рівня техніки та значущості блоку HSIC Lasso можна знайти в Додатковому файлі 1 .

2 Матеріали та методи

2.1 Постановка проблеми

Припустимо, що набір даних містить n зразків, описаних d дійсними ознаками, кожна відповідає біомолекулі (наприклад, експресія однієї транскрипції або кількості основних алелів, що спостерігаються при даному SNP), і мітка, суцільна або двійкова, що описує результат, що цікавить (напр., кількість цільового білка або стан захворювання). Позначаємо i-ту вибірку через x i = [x i (1), x i (2),…, x i (d)] ⊤ ∈ R d ⁠, де ⊤ означає транспонування; та його мітка y y ∈ Y ⁠, де Y = < 0, 1 >для двійкового результату, що відповідає проблемі класифікації, та Y = R для неперервного результату, що відповідає задачі регресії. Крім того, ми позначаємо через f k = [x 1 (k), x 2 (k),…, x n (k)] ⊤ ∈ R n k-ту ознаку в даних.

Метою контрольованого вибору ознак є пошук m ознак (⁠ m ≪ d ⁠), які є найбільш релевантними для прогнозування результату y для вибірки x ⁠ .