Дані додатків для гірничого здоров’я, щоб знайти все менше і менш успішних підгруп для схуднення

Катріна Дж Серрано

1 Національний інститут раку, Бетесда, MD, США

Манді Ю.

1 Національний інститут раку, Бетесда, MD, США

Кіша І Коа

2 ICF International, Роквілл, штат Меріленд, США

Лінда М Коллінз

3 Пенсильванський державний університет, Державний коледж, Пенсільванія, США

Audie A Atienza

2 ICF International, Роквілл, штат Меріленд, США

Анотація

Передумови

Більше половини всіх завантажень програм для смартфонів стосуються ваги, дієти та фізичних вправ. У разі успіху ці програми для життя можуть мати далекосяжні наслідки для профілактики захворювань та економії здоров'я, але мало хто з дослідників аналізував дані цих програм.

Об’єктивна

Мета цього дослідження полягала в аналізі даних комерційного додатка для охорони здоров’я (Lose It!) З метою виявлення успішних підгруп для схуднення за допомогою дослідницького аналізу та перевірки стабільності результатів.

Методи

Перерізні, неідентифіковані дані Lose It! були проаналізовані. Цей набір даних (n = 12 427 196) був випадковим чином розділений на 24 підвибірки, і в цьому дослідженні використовували 3 під вибірки (разом n = 972 687). Методи дерев класифікації та регресії використовувались для вивчення групувань втрати ваги за допомогою однієї підпроби, з описовим аналізом для вивчення характеристик інших груп. Методи перевірки інтелектуального аналізу даних проводились з 2 додатковими під вибірками.

Результати

У підрозділі 1 14,96% користувачів втратили 5% або більше початкової маси тіла. Класифікаційний та регресійний аналіз дерева визначив 3 окремі підгрупи: «випадкові користувачі» мали найменшу частку (4,87%) осіб, які успішно схудли; «Основні користувачі» мали 37,61% успіху у зниженні ваги; а “досвідчені користувачі” досягли найвищого відсотка успіху в схудненні - 72,70%. Поведінкові фактори окреслили підгрупи, хоча поведінкові характеристики, пов’язані з додатками, ще більше виділяють їх. Результати були відтворені в подальшому аналізі з окремими під вибірками.

Висновки

Це дослідження демонструє, що окремі підгрупи можна ідентифікувати у “брудних” даних комерційних додатків, а визначені підгрупи можна відтворити в незалежних зразках. Поведінкові фактори та використання спеціальних функцій додатків характеризували підгрупи. Орієнтація та адаптація інформації до певних підгруп може підвищити успіх у зниженні ваги. Подальші дослідження повинні повторити аналіз аналізу даних для підвищення жорсткості методології.

Вступ

Власність смартфонів серед дорослих американців зросла з 35% у 2011 році до 68% у 2015 році [1]. Це збільшення співпало з розповсюдженням програм для смартфонів, і 19% усіх завантажень додатків пов’язані зі здоров’ям, причому більше половини з них стосується ваги, дієти та фізичних вправ [2]. Це відкриває нові можливості для проведення заходів щодо зміни поведінки здоров’я та втрати ваги в Сполучених Штатах, де рівень ожиріння залишається високим [3].

Незважаючи на те, що додатки мають великі обіцянки для допомоги людям у схудненні та управління звичками життя [4-6], доказів, що підтверджують вплив комерційних програм на поведінку здоров'я та втрату ваги, все ще бракує. Це може бути пов’язано з відсутністю обґрунтованих принципів схуднення у доступних на даний момент додатках [7]. Але з огляду на популярність цих програм, потенційні наслідки є далекосяжними не лише з точки зору профілактики захворювань (наприклад, цукрового діабету, серцево-судинних захворювань, раку), але й економії коштів [8-11].

Дані, які збираються з комерційних програм охорони здоров’я, часто не збираються з урахуванням наукових досліджень. Однак ці програми можуть охопити мільйони користувачів. Якщо проаналізувати за допомогою суворих наукових методів, потенційно багаті дані, зібрані за допомогою цих програм, можуть дати важливе уявлення про те, як відбувається зміна поведінки в натуралістичних умовах серед великих верств населення. Дослідницькі аналізи, такі як методи видобутку даних, які можна використовувати для вивчення існуючих даних про стан здоров’я, не є новиною [11-13], але вони рідко використовуються для вивчення даних про стан здоров’я, зібраних із комерційних програм.

Крім того, наукові методи дослідження надійності та надійності дослідницького аналізу (тобто методи перевірки даних) також були доступні протягом певного часу [14,15], але не використовувались із даними додатків для охорони здоров'я. Оскільки мільйони людей, які використовують комерційні програми для охорони здоров’я, тепер існують можливості як для швидкого аналізу дослідницьких даних, так і для методів перевірки даних. Методи перевірки видобутку даних підвищують наукову строгість дослідницьких підходів, перевіряючи, чи стабільні початкові висновки.

Наскільки нам відомо, жодні дослідження не досліджували ефективність комерційного додатка для схуднення І не оцінювали надійність результатів досліджень. Метою цього дослідження було (1) оцінити поширеність втрати ваги серед дорослих із надмірною вагою та ожирінням за даними, зібраними комерційним додатком, (2) визначити успішні підгрупи втрати ваги та їх характеристики, використовуючи дослідницькі методи аналізу даних, та (3) вивчити надійність виявлених підгруп за допомогою незалежних вибірок.

Методи

Набір даних

Ми проаналізували підмножину неідентифікованих даних у перерізі (n = 12 427 196), які були отримані безпосередньо з Lose It! (FitNow Inc., Бостон, Массачусетс, США). Дані були надані дослідникам Національного інституту раку лише для дослідницьких цілей. Lose It! - запущений у 2008 році - це програма для схуднення, яка доступна як на ринках додатків iOS, так і на Android, а також через Інтернет. Втратив це! (надалі - додаток) надає користувачам засоби відстеження (наприклад, сканери штрих-коду); з'єднання з іншими пристроями та програмами (наприклад, Fitbit, RunKeeper); мотивація та підтримка (наприклад, зв’язок з друзями); та відгуки про харчування (наприклад, згенеровані системою звіти, що порівнюють журнал їжі користувача з рекомендаціями Міністерства сільського господарства США MyPlate).

У додатку користувач створює обліковий запис і план схуднення на основі зросту, ваги, рівня вправ, цільової мети ваги та бажаної щотижневої втрати ваги. Потім додаток використовує всю цю інформацію для розрахунку розрахункового бюджету калорій, призначеного для утворення енергетичного дефіциту, необхідного для досягнення цілі втрати ваги. План схуднення складається з реєстрації дієти, фізичних вправ і ваги за допомогою самозвіту або синхронізованого пристрою (наприклад, підключених до WiFi ваг). Додаток пропонує інструменти мотивації та підтримки, дозволяючи користувачам ідентифікувати друзів та ділитися з ними прогресом та інформацією. Користувачі також можуть брати участь у групах, призначених для мотивації користувачів; наприклад, одна із запропонованих груп - «Ми всі в цьому разом!» - описується як «група для людей, які хочуть дати мотивацію та людей, які хочуть отримати мотивацію».

Проаналізовані дані були від користувачів, які мали додаток протягом 2008-2014 років. Дані для аналізу були отримані з бази даних звітів про метадані програми, яка використовується для забезпечення роботи програми та містить загальний підсумок діяльності користувачів. Таким чином, проаналізовані дані мали поперечний переріз за своєю суттю. Набір даних включав наступну інформацію: вік при налаштуванні рахунку, стать, зріст, вага тіла, індекс маси тіла (ІМТ), бажана цільова вага, бажана щотижнева втрата ваги, кількість днів, в які входили в їжу та фізичні вправи, кількість вправ спалених калорій, кількість спожитих калорій, кількість разів зважених, кількість активних днів, дату останньої активності, пристрої та програми, підключені до облікового запису користувача, тип використовуваної операційної системи, кількість друзів та груп у програмі, кількість проблеми, в яких брали участь користувачі, кількість налаштованих цілей, продуктів, рецептів та вправ, які вводили користувачі, та параметри для конкретних додатків (наприклад, має зображення, використовує нагадування). Дані про вагу та стан здоров’я повідомлялися самостійно, тоді як технічні дані (наприклад, тип використовуваної операційної системи, параметри, що стосуються додатків) були подані з бази даних програми. Більш трудомісткі поздовжні дані для повної вибірки користувачів між 2008 і 2014 роками були недоступні на момент аналізу.

Результатом, що викликав інтерес, стала втрата ваги, визначена для цілей цього дослідження як втрата 5% або більше початкової маси тіла користувача, що, як було доведено, призводить до сприятливих наслідків для здоров’я [16-18]. Це було розраховано шляхом віднімання 5% початкової ваги користувача від мінімальної ваги користувача. Якщо це число було менше або дорівнює нулю, тоді втрата ваги була класифікована як так, усі інші - як ні. До аналізів були включені такі предиктори: вік, стать, кількість зважувань, цільова вага, щотижнева ціль зниження ваги, початкова вага, стартовий ІМТ, зареєстровані дні їжі та фізичних вправ, зареєстровані калорії їжі та фізичних вправ, активні дні в додатку, вік під час налаштування програми, тип використовуваного пристрою чи програми, тип використовуваної операційної системи, кількість друзів, кількість груп, кількість завдань, використання нагадувань, індивідуальні цілі, індивідуальні рецепти, індивідуальні вправи та додатки конкретні варіанти.

Статистичний аналіз

Аналіз дерева класифікації та регресії (CART) був проведений в під вибірці 1 (далі - відома як навчальна вибірка). Методи КАРТ все частіше застосовуються для досліджень поведінки здоров'я для дослідницьких цілей [19-23]. КАРТ-аналіз - це тип методології дерева рішень, який також називають рекурсивним секціонуванням, який корисний для побудови моделей прогнозування з даних [19,20,24-26]. CART використовує непараметричну статистику для виявлення взаємовиключних та вичерпних підгруп осіб, які мають спільні характеристики, що впливають на залежну змінну, що цікавить. Процедура CART використовує заздалегідь обраний критерій розбиття для оцінки всіх можливих незалежних змінних і вибирає змінну (тобто роздільну змінну), що приводить до двійкових груп, які найбільш різняться щодо залежної змінної. Використаним критерієм розщеплення був індекс різноманітності Джині [25], який вибирає розщеплення, яке максимізує зменшення домішки або розмаїття вузла, зменшуючи тим самим помилку в класифікації [19,25].

Методи КАРТ мають кілька переваг перед більш традиційними підходами, такими як логістична регресія. Оскільки CART за своєю суттю непараметричний, не робиться жодних припущень щодо основного розподілу даних. Таким чином, він може обробляти дуже косий розподіл або навіть екстремальні оцінки або викиди [19,20,26]. CART також має складні методи обробки відсутніх даних, і відсутні дані враховуються для кожної змінної в кожній точці розбиття. Якщо в певній точці розбиття відсутні дані, використовуються сурогатні змінні, що містять інформацію, подібну до первинного розгалужувача [27,28]. Це також є важливим фактором, враховуючи відсутні дані, які зазвичай зустрічаються в даних комерційних програм охорони здоров’я.

Аналіз CART проводили в R (версія 3.1.3), використовуючи пакет rpart. Використовувались типові налаштування для rpart, і ці параметри були рекомендовані Брейманом та його колегами [25]. Детальніше про цей пакет наведено в інших розділах [28]. Потім ми створили взаємовиключні підгрупи у навчальній вибірці на основі результатів CART. Описовий аналіз був проведений в SAS (версія 9.3, SAS Institute, Inc., Cary, NC, USA) з вибіркою навчальних матеріалів, щоб визначити, чи додаткові фактори були однозначно пов'язані з різними підгрупами. Через великий обсяг вибірки ми сумніваємось інтерпретувати значення Р; отже, значимість визначалася унікальною дисперсією, що пояснюється предикторними змінними (з використанням R 2 або V Крамера). Як правило, частка дисперсії, що припадає на змінну предиктора, повинна бути не менше 1%.

Потім прогнози моделі CART, визначені на основі навчальної вибірки, оцінювались на підпробі 2 (надалі, відомий як зразок перевірки даних 1), щоб перевірити надійність моделі. Площа під кривою робочої характеристики приймача (AUC) була використана для оцінки точності дерева класифікації за зразком 1. Перевірка інтелектуального аналізу даних. Подальша оцінка була проведена з під вибіркою 3 (далі, відома як перевірка даних зразка 2), і AUC також була отримана за цією під вибіркою. Аналіз AUC проводили в R (версія 3.1.3), використовуючи пакет pROC. Детальніше про цей пакет наведено в інших розділах [29]. Коментований код щодо цих аналізів можна знайти тут: https://github.com/kayserra/sample_code. Для дослідницьких цілей ми також застосували методи CART із зразком для перевірки інтелектуального аналізу даних. Ми змінили налаштування за замовчуванням для параметра складності (тобто критерій, який враховує наслідки неправильної класифікації) до 0,001 проти 0,01 та мінімальної кількості спостережень у вузол для обчислення розбиття, а також термінальний вузол до 3000 (1% вибірки) проти типових 20 та 7 відповідно.

Результати

Аналітичний зразок

Критерії очищення та виключення даних, застосовані до 3 підпроб, призвели до отримання наступних аналітичних зразків: n = 324,649 для під вибірки 1, n = 324,063 для під вибірки 2 і n = 323,975 для вибірки 3 (діаграма потоків даних, показана на малюнку 1).