Складні екологічні фенотипи на філогенетичних деревах: прихована марковська модель для порівняльного аналізу даних багатовимірних підрахунків

АНОТАЦІЯ

Більшість видів у природному світі використовують безліч категорично різних типів екологічних ресурсів. Багато видів метеликів використовують багато рослин-хазяїв, наприклад (Ehrlich & Raven 1964; Robinson 1999). Комахоїдні певчі в помірних районах Північної Америки використовують безліч різних мікроселищ та кормової поведінки (MacArthur 1958), як і медоїди в мезичній та посушливій Австралії (Miller et al. 2017). Еволюція нових моделей використання ресурсів може вплинути на фенотипову еволюцію (Martin & Wainwright 2011; Davis et al. 2016), диверсифікацію (Mitter et al. 1988; Givnish et al. 2014), збори громади (Losos et al. 2003; Gillespie 2004) та функція екосистеми (Harmon et al. 2009; Bassar et al. 2010). Отже, існує значний інтерес до розуміння того, як розвиваються екологічні ознаки, пов'язані з використанням ресурсів, та вивчення їх впливу на інші еволюційні та екологічні явища (Vrba 1987; Futuyma & Moreno 1988; Forister et al. 2012; Price et al. 2012; Burin та ін. 2016).

Однак, роблячи висновки про еволюційну динаміку використання ресурсів, спочатку потрібно узагальнити складні закономірності змін, що спостерігаються серед таксонів, до ознак, які можна моделювати на філогенетичних деревах. Широко визнано, що реальні складності використання ресурсів недостатньо описуються набором категоріальних змінних (Hardy & Linder 2005; Hardy 2006). Тим не менше, це також правда, що основні відмінності у використанні ресурсів іноді можна підсумувати в невеликому наборі екологічних станів, про що говорили Міттер та ін. (1988) у своєму дослідженні фітофагії та диверсифікації комах. З цієї причини моделі безперервного ланцюга Маркова (CTMC), які вимагають класифікації видів за набором станів характеру, стали звичним явищем у макроеволюційних дослідженнях еволюції екологічних ознак (Kelley & Farrell 1998; Nosil 2002; Price et al. 2012; Hardy & Otto 2014; Cantalapiedra et al. 2014; Burin et al. 2016). Моделі CTMC описують стохастичний процес для еволюційних переходів між набором станів характеру і використовуються для виведення станів предків та темпів еволюції, а також для проведення тестів на основі моделей (O’Meara 2012).

Корисність ланцюгів Маркова безперервного часу для вивчення еволюційної динаміки використання ресурсів обмежена припущенням моделювання, що таксони є мономорфними для екологічних станів (Hardy & Linder 2005; Hardy 2006). Як практичне рішення, більшість емпіричних досліджень визначають один або декілька узагальнених станів для розміщення видів, що використовують кілька типів ресурсів, і тому їх не можна охарактеризувати як спеціалістів для певного ресурсу (Alencar et al. 2013; Price et al. 2012; Burin et al. . 2016; Gajdzik et al. 2019). Інше рішення, замість того, щоб класифікувати кожен вид як спеціаліста або спеціаліста, представляє кожну категорію ресурсів із двійковим показником присутності або відсутності (Janz et al. 2001; Colston et al. 2010; Hardy 2017). У цьому випадку екологічний стан виду - це встановлені ресурси, оцінені як наявні. Кожен із цих підходів є одним із рішень проблеми моделювання, що виникає внаслідок внутрішньовидових змін у використанні ресурсів, але обидва рішення нехтують зміною відносної важливості різних ресурсів для різних таксонів. Отже, види, класифіковані в одній державі, тим не менше можуть демонструвати суттєві відмінності в моделях використання ресурсів, створюючи проблеми для інтерпретації еволюційних переходів між станами характеру, а також для розуміння зв'язків між еволюцією стану характеру та диверсифікацією.

Ще одне обмеження ланцюгів Маркова безперервного часу для моделювання еволюції використання ресурсів випливає з того, що види класифікуються до екологічних станів без урахування якості та кількості інформації, доступної для виконання класифікаційної роботи. Наприклад, види з невеликою кількістю екологічних спостережень можуть бути класифіковані як спеціалісти для певного ресурсу, коли їх очевидна спеціалізація суворо залежить від невеликої кількості екологічних спостережень, доступних для таксона. В цілому, не використовуючи статистичну модель для призначення станів ресурсів, ми нехтуємо основним джерелом невизначеності наших даних: нерівномірними та неповними знаннями про використання ресурсів у різних таксонів. У свою чергу, ця невизначеність має суттєві наслідки для того, як ми проектуємо схеми використання ресурсів на набір станів ресурсів. Не враховуючи нерівномірність та скінченність розмірів вибірки, характерні для емпіричних даних про використання ресурсів, ми не можемо бути впевнені, чи присвоєння стану відображає справжню схожість або різницю у використанні ресурсів або є лише очікуваним результатом варіації вибірки.

У цій роботі ми використовуємо формулювання прихованих станів як розподілу ймовірностей для розробки моделі CTMC для вивчення еволюційної динаміки використання екологічних ресурсів на філогенетичних деревах. Наш підхід чітко розроблений для моделювання властивостей ресурсів, які є внутрішньо специфічно змінними, та врахування невизначеності в присвоєнні екологічного стану термінальних таксонів, що виникає внаслідок наслідків варіації вибірки. Ми припускаємо, що кожен стан є неспостереженим (прихованим) мультиноміальним розподілом, і що спостережувані дані є вибіркою результатів цих прихованих розподілів (див. Панелі (i) - (iii) рис. 1). Кількість станів у моделі та самі стани безпосередньо не спостерігаються і оцінюються за даними. За допомогою моделювання та емпіричного набору дієт змій ми показуємо, як метод може використовувати підрахунки спостережень, щоб одночасно зробити висновок про кількість станів ресурсів, пропорційне використання ресурсів різними станами та філогенетичний розподіл екологічних станів серед живих видів та їхніх предків . Метод є загальним і застосовним до будь-яких даних, що виражаються як набір підрахунків спостережень з різних категорій ресурсів.

МАТЕРІАЛИ І МЕТОДИ

Опис моделі

Ця модель даних про підрахунок тісно пов'язана з тематичними моделями складу слів у колекції текстових документів (Blei et al. 2003; Yin and Wang 2014) та з популяційними генетичними моделями складу частоти алелів у сукупності популяцій (наприклад, програма СТРУКТУРА: Pritchard et al., 2000). Ключова відмінність тут полягає в тому, що стан, призначений таксону, є результатом еволюції і не є незалежним від станів інших родових ліній. Концептуально це схоже на філогенетичні порогові моделі, де повна вірогідність поєднує в собі модель ймовірності еволюції ненаблюдаемої змінної та модель ймовірності для вибірки спостережуваних даних, обумовлених набором ненаблюданих змінних (Felsenstein 2012; Revell 2014). Ми моделюємо еволюцію як процес Пуассона, де швидкість змін однакова між усіма державами (тобто в моделі відсутня еволюційна тенденція), але варіюється залежно від роду. Ми вводимо два механізми, що дозволяють пристосувати цю варіацію швидкості.

Другим механізмом розміщення неоднорідності швидкості є, по суті, насичений варіант моделі випадкових локальних годинників, де кожна гілка має унікальну швидкість розвитку. Слідом за Huelsenbeck et al. (2008), це дозволяє нам моделювати специфічні для галузей швидкості як параметри перешкод, отримані незалежно від розподілу гамми з вектором параметрів (α, 1). Ця модель індукує той самий розподіл станів вузлів, що і модель, коли кількість очікуваних змін стану символів уздовж гілки однакова для всіх гілок (Додаток). Це в іншому місці називали моделлю надпоширеного механізму (Steel 2011), щоб позначити його контраст із незвичною моделлю механізму (Tuffley and Steel 1997), з якого воно походить. У цьому випадку ймовірність змін у гілці предків-нащадків становить,

Філогенетичний сигнал контролюється параметром α, який дорівнює очікуваній кількості змін стану, що відбуваються від предка до нащадка. Як α → 0, філогенетичний сигнал наближається до 1, оскільки нащадки майже напевно нагадують своїх предків. Як α → ∞, філогенетичний сигнал наближається до 0, оскільки стан нащадка стає незалежним від стану свого предка і нагадує випадковий витяг з дискретного рівномірного розподілу. Імовірність станів вузлів справедлива, де n - кількість вузлів з тим самим станом, що і їхній предок, m - кількість вузлів з іншим станом, ніж їх предок, а фактор враховує ймовірність кореневого стану.

Байєсівський висновок

Ми змоделювали задній розподіл станів вузлів та параметрів моделі, використовуючи алгоритм Метрополіса-Гастінгса (Гастінгс, 1970). Різні механізми пропозицій описані нижче.

Оновлення станів вузлів

Після вибірки стану для вузла будь-які дані підрахунку, пов'язані з цим вузлом, додаються до набору даних підрахунку, сформованого із вибіркового стану. Оскільки розподіл Діріхле є спряженим до мультиноміального розподілу, задній розподіл багаточленового розподілу, що лежить в основі кожного стану, також є розподіленим Діріхле з параметром (). Під час оновлення станів вузлів ми відстежуємо середнє очікуване пропорційне використання кожного ресурсу кожним станом. Очікуване пропорційне використання ресурсів - це просто середнє значення заднього розподілу, яке є .

Оновлення β

Симетричний гіперпараметр β контролює форму попереднього розподілу Діріхле на прихованих мультиноміальних розподілах, що лежать в основі кожного стану ресурсів. Коли β = 1, розподіл є рівномірним по J-мірному симплексу ресурсів. При β 1 розподіл концентрується у напрямку до центру. Оскільки емпіричні набори даних, як правило, розріджені з великою кількістю нулів, ми припускаємо, що β рівномірно розподіляється на інтервалі (0, 1), і оновлюємо своє значення за допомогою механізму пропозиції ковзного вікна. Коефіцієнти попереднього та пропозиційного співвідношення - 1.

Оновлення α

Коли для обчислення ймовірності використовується рівняння (6), гіперпараметр α контролює філогенетичний сигнал. Хоча це може приймати будь-яке позитивне значення, вірогідність поверхневих плато порівняно швидко, оскільки його величина зростає і філогенетичний сигнал згасає. Вирішуючи логарифм (6) для оцінки максимальної ймовірності α, ми знаходимо, що де f - частка вузлів, які мають такий самий стан, як їхній предок. Значення β узгоджуються з нескінченними значеннями α. Тому ми зв’язали α вище значенням, де N - кількість вузлів (не враховуючи корінь) у філогенезі. Ми припускаємо, що α рівномірно розподіляється між нулем та цим верхнім значенням, і оновлюємо його значення за допомогою механізму пропозиції ковзного вікна. Коефіцієнти попереднього та пропозиційного співвідношення - 1.

Оновлення Λ

Впровадження

Функції для пристосування моделі до даних надаються у вигляді пакета R, доступного за адресою github.com/blueraleigh/phyr. Пакет включає дві функції R, які викликають скомпільовані програми C, що реалізують випадкові локальні годинники та ультрапоширені моделі механізмів.

Імітаційне дослідження

Імітовані набори даних були сформовані з K = 2, 3, 4 і 5 станів дієти, використовуючи емпіричний розподіл вибірки за вихідними 8 категоріями харчових ресурсів. Для кожного K ми спочатку виконали байєсівський висновок за моделлю надто загального механізму, щоб оцінити неспостережувані мультиноміальні розподіли. Очікувані багаточленні розподіли згодом використовувались для моделювання спостережень за дієтою. Для кожного K ми змоделювали 20 наборів даних на кожному з 7 різних рівнів філогенетичного сигналу (0,1, 0,3, 0,5, 0,6, 0,7, 0,8 та 0,9), використовуючи ймовірності переходів в обох рівняннях (3) та (5), в результаті чого 560 набори даних для кожної моделі та 1120 наборів даних разом. Ми визначили філогенетичний сигнал як pii - pji, який коливається від 0 до 1 і кількісно визначає, скільки інформації надає стан нащадка про стан свого предка (Royer-Carenzi et al. 2013). Використання рівняння (5) для ймовірностей переходу призводить до того, що філогенетичний сигнал дорівнює. Цей результат ми використали для розрахунку значення α для кожного моделювання.

Коли рівняння (3) використовується для ймовірностей переходу, кожна гілка має унікальний філогенетичний сигнал. Оскільки філогенетичний сигнал є опуклою функцією довжини гілки, середній філогенетичний сигнал усіх гілок більший або дорівнює філогенетичному сигналу середньої гілки, що є. Ми використовували філогенетичний сигнал середньої гілки для обчислення значення Λ для кожного моделювання, яке ми застосовували до всіх гілок (тобто набори даних не включали випадкові місцеві зміни годинника). Цікаво, що для даної довжини гілки (вимірюваної як очікувана кількість змін стану) філогенетичний сигнал із рівнянням (5) завжди більший, ніж філогенетичний сигнал із рівнянням (3), що свідчить про те, що оцінка швидкості еволюції йде на компроміс з оцінкою станів вузлів предків ( Gascuel and Steel 2018). Для кожного модельованого набору даних ми провели набір ланцюжків Маркова з 1, 2, ..., до К + 3 дієтичних станів. Кожен ланцюг запускали 160 000 ітерацій після прогорання 30 000 ітерацій, відбираючи проби кожні 128 ітерацій, отримуючи 1250 задніх зразків.

Визначення кількості станів ресурсів

Ілюстрація апостеріорного критерію для визначення кількості станів у моделі. Панель (а) показує середню часову вірогідність емпіричних даних як функцію кількості станів дієти. На панелі (b) показано, як qK, найменша максимальна гранична задня ймовірність, з якою стан присвоюється кінцевим таксонам, змінюється як функція від кількості станів. Перевірка граничних задніх ймовірностей виявляє, що шостий стан ніколи не однозначно присвоюється кінцевому вузлу (панелі b і c). З цієї причини модель з п’ятьма станами ресурсів вважається оптимальною. Пропорційне використання різних продовольчих ресурсів цими п’ятьма державами проілюстровано на графіку троянд на панелі (d).

Оцінка адекватності моделі

РЕЗУЛЬТАТИ

Загалом, правило qK правильно ідентифікувало кількість станів ресурсів у 492 із 560 моделювань за моделлю надпоширеного механізму (рис. 5). У 68 випадках, коли метод неправильно визначав кількість станів, він недооцінював кількість станів на один (61 примірник), два (4 примірники) та три стани (2 примірники) і завищував кількість станів на один штат у один примірник. Коли правило qK використовувалось із моделлю випадкових локальних годинників, воно правильно визначило кількість станів у 475 із 560 моделювань (рис. S1). У 85 випадках, коли метод неправильно визначав кількість станів, він недооцінював кількість станів на один (77 випадків) та два стани (8 випадків). Не вдається правильно визначити кількість станів, як правило, трапляється, коли кількість спостережень, породжених станом, є невеликою відносно кількості спостережень з інших станів. Це трапляється, коли термінальні вузли, що представляють стан, мають погано відібрані дієти, внаслідок чого стан переходить у стан найближчих родичів.

Що стосується рисунку 5 в основному тексті, за винятком того, що моделювання проводилося з використанням ймовірностей переходу з рівняння (3), а не з рівняння (5).