Регресійний аналіз

Регресійний аналіз - широко застосовувана техніка, яка корисна для багатьох застосувань. Ми представляємо методику тут і розширюємо її використання в наступних модулях.

Проста лінійна регресія

Проста лінійна регресія - це техніка, яка є доцільною для розуміння зв'язку між однією незалежною (або предикторною) змінною та однією постійною залежною (або результативною) змінною. Наприклад, припустимо, ми хочемо оцінити зв'язок між загальним холестерином (у міліграмах на децилітр, мг/дл) та індексом маси тіла (ІМТ, виміряним як відношення ваги в кілограмах до зросту в метрах 2), де загальний холестерин є залежним змінної, а ІМТ - незалежна змінна. При регресійному аналізі залежну змінну позначають Y, а незалежну змінну X. Отже, у цьому випадку Y = загальний холестерин і X = ІМТ.

Коли існує одна суцільна незалежна змінна та одна незалежна змінна, аналіз називається простим лінійним регресійним аналізом. Цей аналіз передбачає наявність лінійної асоціації між двома змінними. (Якщо висувається гіпотеза про іншу залежність, таку як криволінійна або експоненціальна залежність, виконуються альтернативні регресійні аналізи.)

Малюнок нижче - діаграма розсіяння, що ілюструє взаємозв'язок між ІМТ та загальним холестерином. Кожна точка представляє спостережувану (х, у) пару, в даному випадку ІМТ та відповідний загальний холестерин, виміряний у кожного учасника. Зверніть увагу, що незалежна змінна (ІМТ) знаходиться на горизонтальній осі, а залежна змінна (Загальний холестерин в сироватці крові) на вертикальній осі.

ІМТ та загальний холестерин

незалежна змінна

Графік показує, що існує позитивний або прямий зв'язок між ІМТ та загальним холестерином; учасники з нижчим ІМТ частіше мають нижчий рівень загального холестерину, а учасники з більш високим ІМТ мають вищий рівень загального холестерину. На противагу цьому, припустимо, ми досліджуємо зв'язок між ІМТ та холестерином ЛПВЩ.

На відміну від цього, на графіку нижче показано взаємозв'язок між ІМТ та ЛПВЩ холестерин в тій же вибірці з n = 20 учасників.

ІМТ та холестерин ЛПВЩ

Цей графік показує негативну або зворотну зв'язок між ІМТ та холестерином ЛПВЩ, тобто ті, у кого нижчий ІМТ, частіше мають більш високий рівень холестерину ЛПВЩ, а ті, у кого ІМТ, частіше мають нижчий рівень холестерину ЛПВЩ.

Для будь-якого з цих співвідношень ми могли б використовувати простий аналіз лінійної регресії для оцінки рівняння прямої, що найкраще описує зв'язок між незалежною змінною та залежною змінною. Просте рівняння лінійної регресії є таким:

де Y прогнозована або очікувана цінність результату, X є предиктором, b0 - розрахунковий Y-перехват, і b1 - розрахунковий нахил. Перехоплення Y та нахил оцінюються на основі даних вибірки, і вони є значеннями, які мінімізують суму квадратних різниць між спостережуваними та прогнозованими значеннями результату, тобто оцінки мінімізують:

Ці відмінності між спостережуваними та передбачуваними значеннями результату називаються залишки . Оцінки перетину Y та нахилу мінімізують суму квадратних залишків і називаються оцінки найменших квадратів . 1

Концептуально, якби значення X забезпечували ідеальне прогнозування Y, тоді сума квадратичних різниць між спостережуваними та передбачуваними значеннями Y становила б 0. Це означало б, що мінливість Y могла б повністю пояснити різницею X. Однак, якщо різниця між спостережуваними та передбачуваними значеннями не дорівнює 0, тоді ми не можемо повністю врахувати відмінності в Y на основі X, тоді в прогнозуванні є залишкові помилки. Залишкова похибка може бути результатом неточних вимірювань X або Y, або можуть бути інші змінні, крім X, які впливають на значення Y.

На основі спостережуваних даних найкраща оцінка лінійного співвідношення буде отримана з рівняння для лінії, яка мінімізує різницю між спостережуваними та передбачуваними значеннями результату. Y-перехоплення цього рядка - значення залежної змінної (Y), коли незалежна змінна (X) дорівнює нулю. схил рядка - це зміна залежної змінної (Y) щодо зміни на одну одиницю незалежної змінної (X). Оцінки найменших квадратів перетину y та нахилу обчислюються наступним чином:

  • r - коефіцієнт кореляції вибірки,
  • зразком засобів є і
  • і Sx та Sy - стандартні відхилення незалежної змінної x та залежної змінної y відповідно.

ІМТ та загальний холестерин

Оцінки найменших квадратів коефіцієнтів регресії, b 0 та b1, що описують взаємозв'язок між ІМТ та загальним холестерином, становлять b0 = 28,07 та b1 = 6,49. Вони обчислюються наступним чином:

Оцінка Y-перехоплення (b0 = 28,07) представляє розрахунковий загальний рівень холестерину, коли ІМТ дорівнює нулю. Оскільки ІМТ, що дорівнює нулю, не має сенсу, Y-перехоплення не є інформативним. Оцінка нахилу (b1 = 6,49) представляє зміну загального холестерину відносно зміни одиниці ІМТ на одну одиницю. Наприклад, якщо порівняти двох учасників, ІМТ яких відрізняється на 1 одиницю, можна очікувати, що їх загальний вміст холестеринів буде відрізнятися приблизно на 6,49 одиниць (при цьому у людини з вищим ІМТ рівень вищого загального холестерину).

Рівняння лінії регресії таке:

На графіку нижче показано приблизну лінію регресії, накладену на діаграму розсіювання.

Рівняння регресії може бути використано для оцінки загального холестерину учасника як функції його/її ІМТ. Наприклад, припустимо, що ІМТ учасника становить 25. Ми б оцінили їх загальний рівень холестерину в 28,07 + 6,49 (25) = 190,32. Рівняння також можна використовувати для оцінки загального холестерину для інших значень ІМТ. Однак рівняння слід використовувати лише для оцінки рівня холестерину для осіб, ІМТ яких перебувають у межах даних, що використовуються для формування рівняння регресії. У нашій вибірці ІМТ коливається від 20 до 32, тому рівняння слід використовувати лише для отримання оцінок загального холестерину для осіб з ІМТ у цьому діапазоні.

Існують статистичні тести, які можна провести, щоб оцінити, чи оцінюються коефіцієнти регресії (b0 та b1) статистично суттєво відрізняються від нуля. Найбільш цікавим тестом є зазвичай H0: b1 = 0 проти H1: b1 ≠ 0, де b1 - нахил сукупності. Якщо нахил сукупності суттєво відрізняється від нуля, ми робимо висновок, що існує статистично значущий зв’язок між незалежними та залежними змінними.

ІМТ та холестерин ЛПВЩ

Оцінки найменших квадратів коефіцієнтів регресії, b0 та b1, що описують взаємозв'язок між ІМТ та холестерином ЛПВЩ, такі: b0 = 111,77 та b1 = -2,35. Вони обчислюються наступним чином:

Знову ж таки, Y-перехоплення малоінформативне, оскільки ІМТ дорівнює нулю безглуздо. Оцінка нахилу (b1 = -2,35) являє собою зміну рівня холестерину ЛПВЩ відносно зміни одиниці ІМТ на одну одиницю. Якщо порівняти двох учасників, ІМТ яких відрізняються на 1 одиницю, ми могли б очікувати, що їх холестероли ЛПВЩ відрізнятимуться приблизно на 2,35 одиниці (при цьому у людини з вищим ІМТ нижчий рівень холестерину ЛПВЩ. На малюнку нижче показана лінія регресії, накладена на діаграму розсіювання для ІМТ та холестерину ЛПВЩ.

Аналіз лінійної регресії ґрунтується на припущенні, що залежна змінна є безперервною і що розподіл залежної змінної (Y) при кожному значенні незалежної змінної (X) розподіляється приблизно в нормі. Однак зауважте, що незалежна змінна може бути безперервною (наприклад, ІМТ) або може бути дихотомічною (див. Нижче).

Школа громадського здоров'я Бостонського університету
SoftChalk 9.02.10