Модель навчання харчових винагород з динамічним виплатою винагороди

Росс А. Хаммонд

1 Центр соціальної динаміки та політики, Інститут Брукінгса, Вашингтон, округ Колумбія, США

Джозеф Т. Орнштейн

1 Центр соціальної динаміки та політики, Інститут Брукінгса, Вашингтон, округ Колумбія, США

Леслі К. Стипендіати

2 Монреальський неврологічний інститут та лікарня, Університет Макгілла, Монреаль, QC, Канада

Лоре Дубе

3 Факультет управління Desautels, Університет Макгілла, Монреаль, QC, Канада

Роберт Левітан

4 Кафедра психіатрії Університету Торонто, Торонто, Онтаріо, Канада

Ален Дагер

2 Монреальський неврологічний інститут та лікарня, Університет Макгілла, Монреаль, КК, Канада

Анотація

Процес підготовки через навчання за винагороду надзвичайно важливий для вивчення вибору їжі та ожиріння. Навчання саме по собі формується під впливом навколишнього середовища, причому потенціал такого опромінення може суттєво відрізнятися в залежності від окремих людей, місця та часу. У цій роботі ми використовуємо обчислювальні методи для розширення добре перевіреної стандартної моделі навчання винагородами, вводячи як істотну неоднорідність, так і динамічний вплив винагороди. Потім ми застосовуємо розширену модель до контексту вибору їжі. Модель створює різноманітні особливості поведінки та моделей на рівні населення, що не видно з традиційних формулювань, але які пропонують потенційні уявлення для розуміння навчання харчових винагород та ожиріння. Сюди входить ефект «блокування», завдяки якому ранній вплив може сильно сформувати пізнішу оцінку винагороди. Ми обговорюємо потенційні наслідки наших результатів для вивчення та профілактики ожиріння, для галузі навчання за винагороду, а також для подальшої експериментальної та обчислювальної роботи.

Вступ

Ожиріння має складну етіологію з багатьма відомими шляхами (Huang and Glass, 2008; Hammond, 2009; Dubé et al., 2010; IOM, 2010, 2012). Значні докази свідчать про те, що харчове середовище може бути важливим фактором ожиріння (Lakdawalla та Philipson, 2009), а також те, що люди можуть відрізнятися між собою схильністю до надмірного споживання у відповідь на харчові сигнали в навколишньому середовищі (Guerrieri et al., 2008). Деякі дослідники називають "гедонічний голод" - голод, обумовлений харчовими сигналами та очікуванням задоволення від їжі, а не суто гомеостатичними потребами в калоріях (Lowe and Butryn, 2007), підкреслюючи важливість систем винагороди мозку для управління харчовими рішеннями.

Ми зосереджуємось на припущенні, що перевага висококалорійній їжі та неможливість протистояти привабливості харчових сигналів частково розвивається через форму кондиціонування (Epstein et al., 2007). Кондиціонування відноситься до приписування стимулюючих властивостей раніше нейтральним сигналам, поєднаним з первинними винагородами, такими як їжа, шляхом навчання (Frank and Claus, 2006; Samson et al., 2010). Особи з посиленою здатністю вчитися на винагородах були б більш схильні до цієї форми обумовленості, а також до пов'язаного з цим явища сенсибілізації, яке стосується поступового збільшення нервової та поведінкової реакції на повторні нагороди (Robinson and Berridge, 1993) . Дослідження на тваринах настійно припускають, що невід’ємні відмінності в дофаміновій системі сприяють диференційному вивченню ознак прогнозування винагороди, що, у свою чергу, сприяє більшій мотивації споживати та шукати відповідну винагороду за наявності таких ознак (Dalley et al., 2005, 2007; Петрович and Gallagher, 2007; Flagel et al., 2008, 2009; Berridge et al., 2009; Yager and Robinson, 2010; Lovic et al., 2011).

Модель, яку ми представляємо в цій роботі, не має на меті бути всеосяжною моделлю харчової поведінки, а зосереджена конкретно на з’ясуванні ролі навчання за винагороду. Виключаючи інші фактори, що сприяють цьому, такі як гомеостаз, виконавчий контроль та норми харчування, ми виділяємо динамічний ефект навчання винагородами в контексті різноманітного та мінливого впливу винагороди навколишнього середовища. Наша модель прямо не посилається на дофамін, хоча його роль у навчанні та підвищенні сенсибілізації до наркотиків та продуктів харчування не викликає сумнівів (Sclafani et al., 2011). Швидше ми припускаємо, що успадкована вразливість (посилене навчання винагородам) разом із середовищем, багатим висококалорійною їжею, може призвести до довготривалих нервових адаптацій, що сприяють надмірному харчуванню протягом усього життя. Ми досліджуємо гіпотезу про те, що динамічне навчання з винагородою може допомогти пояснити як важливість раннього життя як ключового періоду у розвитку харчової поведінки, так і суперечливі докази впливу харчового середовища на харчову поведінку та ожиріння (Morland et al., 2006; Larson et al., 2009; Murakamia et al., 2010).

Модель навчання, що використовується тут, - це часовий алгоритм різницевого навчання (TDL) (Montague et al., 1996; Schultz et al., 1997; Sutton and Barto, 1998). Ця модель представляє особливий інтерес, оскільки великі дані про людини та тварини свідчать про те, що сигнали TDL передаються нейронами дофаміну в мозку (Schultz, 1998), а експериментальні дослідження підтвердили цю загальну математичну модель навчання на індивідуальному рівні в ретельно контрольованих умовах ( Montague et al., 1996; Schultz et al., 1997; O'Doherty et al., 2003). В контексті вибору їжі середовище людини може сильно вплинути на наявний вибір споживання, а отже і на курс навчання. Більше того, середовище, якому впливає людина, може з часом змінюватися. Якщо TDL має забезпечити практичну основу для моделювання навчання за винагороду з їжі, тоді ці міркування повинні бути включені. Наша основна увага зосереджена не на оцінці ефективності алгоритму для досягнення належного навчання у складному просторовому контексті (як у Tesauro, 1992; Ng et al., 2004; Whiteson et al., 2010), а, навпаки, на вивченні його наслідків для вибір їжі за неоднорідних динамічних закономірностей впливу навколишнього середовища.

У цій роботі ми розробляємо розширення рамки TDL для чіткого моделювання руху в різних середовищах експозиції в часі. Щоб вловити цю динаміку та місцеву неоднорідність впливу навколишнього середовища, ми побудували імітацію з використанням обчислювального моделювання на основі агентів (ABM), що добре підходить для моделювання динаміки, навчання та не випадкових просторових структур (Сторінка, 1999; Axelrod, 2006; Hammond and Axelrod, 2006; Tesfatsion and Judd, 2006). Багатоагентний підхід також дозволяє розширити модель у майбутньому, наприклад, включити емпіричні дані про соціальні взаємодії, географію продовольства та додаткові нейробіологічні шляхи. Таким чином, навчання за винагороду, змодельоване тут, може бути включене в більш комплексний підхід до моделювання „системного” ожиріння (Auchincloss і Diez Roux, 2008; Mabry et al., 2008, 2010; Huang et al., 2009; IOM, 2010, 2012; Леві та ін., 2011; Hammond and Dube, 2012).

Наші результати показують, як різницевий та динамічний вплив винагороди може призвести до нетривіальних відмінностей у процесі навчання серед людей. Ми також демонструємо, як ранній вплив може сильно вплинути на навчання за винагороду, і може “зафіксувати” ранній досвід таким чином, що формує пізнішу поведінку. Ми починаємо з якомога простішої моделі, повторюючи очікувані аналітичні результати з базової формули TDL, а потім послідовно додаємо індивідуальну неоднорідність, просторову складність та динамічний вплив винагороди, щоб дослідити конкретні гіпотези про вплив кожної на результати навчання за винагороду.

Матеріали і методи

Часові відмінності в рамках навчання

У своїй стандартній формі модель TDL імітує навчання винагороді за допомогою сигналів про помилку прогнозування винагороди (про що може сигналізувати в мозку дофамін). Величина сигналізації про помилку представлена терміном дельта (δ), що є різницею між фактичним випробуваним значенням винагороди в момент часу t, V (t) та прогнозованим значенням винагороди агента, V ^ (t) . Прогнозоване значення оновлюється кожного раунду відповідно до

де α - швидкість навчання.

У цій роботі ми адаптуємо ці рамки до моделі навчання за винагороду за їжу. Ми визначаємо різноманітні типи їжі з різними значеннями винагороди, пов’язаними з їх споживанням. Кожен тип їжі j має властиві смакові якості (pj). Щоб забезпечити можливість індивідуальної неоднорідності в уподобаннях та винагороді за їжу, наша адаптація системи TDL дозволяє “справжнім” V, пов’язаним із кожним видом їжі, відрізнятися між агентами. Ми дозволяємо V змінюватися для кожного агента i, виходячи з деякого кратного смаку бази - бета (β). Ми позначаємо βij як реакцію агента i на їжу j. Це розширення стандартної моделі TDL підходить для моделювання ситуацій, коли оцінка винагороди варіюється в окремих людей, як у виборі їжі. Отже: