Глава 2 Лінійна регресія на невеликому наборі даних SMART

2.1 BRFSS та SMART

Центри з контролю захворювань аналізують дані обстеження системи поведінкового фактора ризику (BRFSS) для конкретних столичних та мікрополітичних статистичних районів (MMSA) у програмі, яка називається Вибрані тенденції ризику розвитку міських/мікрополітичних районів BRFSS (SMART BRFSS.)

У цій роботі ми зосередимось на даних SMART 2016 року, а зокрема на даних Клівленда-Елірії, штат Огайо, Столичного статистичного району. Метою цього опитування є надання локалізованої медичної інформації, яка може допомогти медичним працівникам виявляти виникаючі проблеми зі здоров’ям на місцевому рівні, планувати та оцінювати місцеві реакції та ефективно розподіляти ресурси на конкретні потреби.

2.1.1 Ключові ресурси

  • повні дані доступні у формі даних SMART BRFSS 2016 MMSA, які містяться у архівованому файлі транспортного формату SAS. Дані були опубліковані в серпні 2017 року.
  • PDF із макетом змінних MMSA, в якому просто перелічені змінні, що входять до файлу даних
  • PDF "Розраховані змінні", що описує фактори ризику за іменами змінних даних - також існує онлайн-зведена матриця цих розрахункових змінних, а також.
  • тривалий PDF-опитування 2016 року, в якому перелічені всі питання, задані в рамках BRFSS у 2016 році
  • величезний Код книги для опитування BRFSS 2016 року, який ідентифікує змінні за назвою для нас.

Пізніше цього терміну ми використаємо всі ці ресурси, щоб допомогти побудувати більш повний набір даних, ніж ми вивчатимемо сьогодні. Я також продемонструю, як я створив набір даних smartcle1, який ми будемо використовувати в цій главі.

2.2 Дані Smartcle1: Кулінарні книги

Файл даних smartcle1.csv, доступний на сторінці Даних та коду нашого веб-сайту, описує інформацію про 11 змінних для 1036 респондентів BRFSS 2016, які проживають у Клівленді-Елірії, штат Огайо, в столичному статистичному районі. Змінні у файлі smartcle1.csv перелічені нижче, а також (у деяких випадках) елементи BRFSS, які генерують ці відповіді.

2.3 smartcle2: Опускаючи відсутні спостереження: Повний аналіз справ

З метою встановлення наших перших декількох моделей ми усунемо проблему відсутності та розглянемо лише повні випадки в наших даних smartcle1. Далі в цих примітках ми обговоримо методи введення відсутніх даних.

Щоб перевірити відсутність наших даних, ми могли б розглянути можливість використання функції skim із пакету skimr. Ми виключимо ідентифікаційний код респондента (SEQNO) із цього резюме як нецікавий.

Зараз ми створимо нову таблицю під назвою smartcle2, яка містить усі змінні, крім слабкого здоров’я, і включає всіх респондентів із повними даними про змінні (крім поганого здоров’я). Ми збережемо ці спостереження з повними даними у таблиці smartcle2.

Зауважимо, що лише 896 респондентів з повна дані про 10 змінних (за винятком слабкого здоров’я) у таблиці smartcle2, порівняно з нашими оригінальними даними smartcle1, які описували 1036 респондентів та 11 змінних, але з великою кількістю відсутніх даних.

2.4 Числове підведення даних smartcle2

2.4.1 Нова іграшка: функція обробки

2.4.2 Звичайний підсумок для кадру даних

Звичайно, ми можемо скористатися звичайним резюме, щоб отримати деяку основну інформацію про дані.

2.4.3 Функція опису у Hmisc

Або ми можемо використати функцію опису з пакета Hmisc.

2.5 Врахування як аналіз дослідницьких даних

Підрахунок речей може бути надзвичайно корисним.

2.5.1 Скільки респондентів займалися фізичними вправами за останні 30 днів? Чи відрізнялося це залежно від статі?

тому ми знаємо зараз, що 42,3% обстежених у наших даних були жінками, які займалися спортом. Припустимо, що замість цього ми хочемо знайти відсоток фізичних вправ серед кожної статі ...

і тепер ми знаємо, що 82,8% чоловіків займалися хоча б раз за останні 30 днів, порівняно з 72,3% жінок.

2.5.2 Який розподіл сонників? ?

Ми можемо підрахувати кількісні змінні з дискретними наборами можливих значень, наприклад, Slephrs, яке фіксується як ціле число (яке повинно падати від 0 до 24.)

Звичайно, природний підсумок такої кількісної змінної був би графічним.

примітки

2.5.3 Який розподіл ІМТ ?

2.5.4 Скільки респондентів мають ІМТ нижче 30?

2.5.5 Скільки в цих даних респондентів, які мають ІМТ 2.5.6?

2.5.7 Порівняння резюме сонників за статусом ожиріння

Чи можна порівняти середні показники сонності, медіани та 75-й процентиль для респондентів, ІМТ яких нижче 30, з респондентами, ІМТ яких не є?

2.5.8 Функція знежирення в трубі

знежирене функція працює в трубах та з іншими функціями tidyverse.

2.6 Перша спроба моделювання: чи може bmi передбачити стан здоров’я ?

Ми почнемо з того, щоб спрогнозувати стан здоров’я за допомогою bmi. Натуральним графіком буде розсіяний графік.

Хорошим запитанням, яке можна задати собі тут, може бути: "В якому діапазоні ІМТ ми можемо зробити обґрунтований прогноз здоров’я?"

Тепер ми можемо взяти сюжет вище і додати просту лінійну модель ...

яка показує ту саму модель регресії найменших квадратів, яку ми можемо вмістити за допомогою команди lm.

2.6.1 Встановлення простої моделі регресії

Коефіцієнти моделі можна отримати, надрукувавши об’єкт моделі, а функція зведення надає кілька корисних описів залишків моделі, її статистичної значущості та якості придатності.

2.6.2 Короткий зміст моделі для простої регресії (з одним предиктором)

Пристосована модель передбачає здоров’я за рівнянням -1,45 + 0,195 * bmi, як ми можемо зчитувати з коефіцієнтів моделі.

Кожен із 896 респондентів, включених до даних smartcle2, робить свій внесок у цю модель.

2.6.2.1 Залишки

Припустимо, Гаррі - один із людей у ​​цій групі, а дані Гаррі - bmi = 20, а фізичне здоров’я = 3.

  • Спостережуване значення Гаррі для здоров’я - це лише значення, яке ми маємо в даних для них, в даному випадку спостережене здоров’я = 3 для Гаррі.
  • Придатне або передбачуване значення здоров’я Гаррі є результатом розрахунку -1,45 + 0,195 * bmi для Гаррі. Отже, якщо ІМТ Гаррі становив 20, то передбачуване значення здоров’я Гаррі становить -1,45 + (0,195) (20) = 2,45.
  • Тоді залишок для Гаррі - це його спостережуваний результат мінус його пристосований результат, тому Гаррі має залишок 3 - 2,45 = 0,55.
  • Графічно залишок представляє вертикальну відстань між спостережуваною точкою та встановленою лінією регресії.
  • Точки над лінією регресії матимуть додатні залишки, а точки під лінією регресії матимуть негативні залишки. Точки на прямій не мають залишків.

Залишки узагальнені у верхній частині зведеного виводу для лінійної моделі.

  • Середнє залишкове значення завжди буде дорівнювати нулю в звичайній моделі найменших квадратів, але зведення залишків надається на п'ять чисел, як і приблизне стандартне відхилення залишків (тут називається залишковою стандартною помилкою).
  • У даних smartcle2 мінімальний залишковий залишок становив -9,17, тому для одного суб'єкта спостережуване значення було на 9,17 днів менше прогнозованого значення. Це означає, що передбачення було занадто великим для цього суб’єкта на 9,17 дня.
  • Подібним чином максимальний залишковий показник становив 28,07 днів, тому для одного суб'єкта прогноз був 28,07 днів занадто малим. Не сильний показник.
  • У моделі найменших квадратів залишки, як передбачається, дотримуються нормального розподілу із середнім нулем та стандартним відхиленням (для даних smartcle2) близько 8,6 днів. Таким чином, згідно з визначенням нормального розподілу, ми б очікували
  • близько 68% залишків становлять від -8,6 до +8,6 днів,
  • приблизно 95% залишків становлять від -17,2 до +17,2 доби,
  • приблизно всі (99,7%) залишків становлять від -25,8 до +25,8 днів.

2.6.2.2 Розділ коефіцієнтів

Підсумок для лінійної моделі показує оцінки, стандартні помилки, значення t та значення p для кожного коефіцієнта.

  • Оцінки - це точкові оцінки перехоплення та нахилу bmi у нашій моделі.
  • У цьому випадку наш розрахунковий нахил становить 0,195, що означає, що якщо ІМТ Гаррі дорівнює 20, а ІМТ Саллі 21, ми прогнозуємо, що здоров’я Саллі буде на 0,195 дня більше, ніж у Гаррі.
  • Для кожної оцінки також надаються стандартні помилки. Ми можемо створити приблизно 95% довірчих інтервалів, додавши і віднявши від кожного коефіцієнта дві стандартні помилки, або ми можемо отримати трохи точнішу відповідь за допомогою функції confint.
  • Тут 95% довірчий інтервал для нахилу bmi оцінюється як (0,11, 0,28). Це хороший показник невизначеності нахилу, який фіксує наша модель. Ми впевнені в процесі побудови цього інтервалу на 95%, але це не означає, що ми впевнені, що справжній нахил насправді знаходиться в цьому інтервалі.

Також доступні значення t (просто оцінка, поділена на стандартну помилку) та відповідне значення p для перевірки нульової гіпотези про те, що справжнє значення коефіцієнта дорівнює 0 проти двосторонньої альтернативи.

  • Якщо коефіцієнт нахилу статистично суттєво відрізняється від 0, це означає, що 0 не буде частиною інтервалу невизначеності, отриманого через обмеження .
  • Якби нахил дорівнював нулю, це означало б, що bmi не додасть прогностичного значення моделі. Але це навряд чи тут.

Якщо коефіцієнт нахилу bmi пов'язаний з невеликим значенням p, як у випадку з нашою моделлю_A, це свідчить про те, що модель, що включає bmi, статистично значно краща при прогнозуванні стану здоров'я, ніж модель без bmi .

  • Без bmi наша модель_А стала б моделлю лише для перехоплення, у цьому випадку, яка передбачала б середній рівень здоров’я для кожного, незалежно від будь-якої іншої інформації.

2.6.2.3 Підсумки моделі

Короткий зміст лінійної моделі також відображає:

  • Статистика F та значення p з глобального тесту ANOVA моделі.
    • Отримати тут статистично значущий результат зазвичай досить просто, оскільки порівняння проводиться між нашою моделлю та моделлю, яка просто передбачає середнє значення результату для всіх.
    • У такій простій (з одним предиктором) лінійній регресії, статистика t для нахилу - це просто квадратний корінь статистики F, а отримані значення p для тесту t нахилу та для глобального тесту F будуть ідентичними.
  • Щоб побачити повний тест ANOVA F для цієї моделі, ми можемо запустити anova (model_A) .

2.6.3 Використання упаковки мітли

Пакет віників має три функції, які особливо використовуються в моделі лінійної регресії: