Розподіл F та коефіцієнт F Вступ до статистики

Розподіл, який використовується для перевірки гіпотези, є новим. Його називають розподілом F, названим на честь сера Рональда Фішера, англійського статистика. Статистика F - це відношення (частка). Існує два набори ступенів свободи; один для чисельника і один для знаменника.

Наприклад, якщо F слідує за розподілом F, і кількість ступенів свободи для чисельника дорівнює чотирьом, а кількість ступенів свободи для знаменника - десять, то F

Розподіл F походить від t-розподілу Стьюдента. Значення розподілу F - це квадрати відповідних значень t-розподілу. Одностороння ANOVA розширює t-тест для порівняння більше двох груп. Сфера цього виведення виходить за рамки цього курсу.

Для розрахунку коефіцієнта F складається дві оцінки дисперсії.

Відхилення між зразками: Оцінка σ 2, тобто дисперсія вибірки, помножена на n (коли розміри вибірки однакові.). Якщо зразки мають різні розміри, дисперсія між зразками зважується, щоб врахувати різні розміри зразків. Дисперсію також називають варіація внаслідок лікування або пояснені варіації.
Дисперсія в межах зразків: Оцінка σ 2, яка є середнім значенням дисперсій вибірки (також відома як об’єднана дисперсія). Коли розміри вибірки різні, дисперсія всередині зразків зважується. Дисперсію також називають варіація через помилку або незрозуміла варіація.

SSbet Between = сума квадратів, що представляє варіацію між різними вибірками
SSwithin = сума квадратів, що представляє варіацію в межах зразків, що обумовлена випадковістю.

Знайти «суму квадратів» означає скласти квадрати величин, які в деяких випадках можуть бути зваженими.

MS означає “середній квадрат.”MSbetween - це дисперсія між групами, а MSwithin - дисперсія всередині груп.

Розрахунок суми квадратів та середнього квадрата

k = кількість різних груп

nj = розмір j-ї групи

sj = сума значень у j-й групі

n = загальна кількість усіх об'єднаних значень (загальний обсяг вибірки: ∑n j)

Сума квадратів усіх значень з кожної групи разом: ∑
х 2

Пояснена варіація: сума квадратів, що представляє варіацію між різними зразками:
[латекс] \ displaystyle _ >> = \ сума)> ^ >> _ >>]> - \ frac _>)> ^ >>> [/ латекс]

Незрозуміла варіація: сума квадратів, що представляють варіацію в зразках через випадковість:
[латекс] \ displaystyle _ >> = _ >> -_ >> [/ латекс]

df для різних груп (df для чисельника): df = k - 1

Рівняння для помилок у зразках (df для знаменника):

Середній квадрат (оцінка дисперсії), який обумовлений випадковістю (незрозумілі):
[латекс] \ displaystyle _ >> = \ frac _ >>>> _ >>>> [/ латекс]

MSbetween і MSwithin можна записати так:

Односторонній тест ANOVA залежить від того, що
МС між ними може впливати різниця популяцій серед засобів кількох груп. Оскільки MSwithin порівнює значення кожної групи зі своїм власним середнім значенням групи, той факт, що середні значення групи можуть бути різними, не впливає на MSwithin.

Нульова гіпотеза говорить, що всі групи є зразками з популяцій, що мають однаковий нормальний розподіл. Альтернативна гіпотеза говорить, що принаймні дві групи вибірки походять з популяцій з різним нормальним розподілом. Якщо нульова гіпотеза відповідає дійсності,
MSbetween та MSwithin повинні оцінювати одне і те ж значення.

Нульова гіпотеза говорить, що всі засоби групової сукупності рівні. Гіпотеза рівних середніх означає, що популяції мають однаковий нормальний розподіл, оскільки передбачається, що популяції нормальні і що вони мають однакові дисперсії.

F-коефіцієнт або F-статистика

Якщо
MSbetween і MSwithin оцінюють одне і те ж значення (дотримуючись переконання, що H0 відповідає дійсності), тоді коефіцієнт F повинен бути приблизно рівним одиниці. Здебільшого, лише помилки вибірки сприяли б відхиленням від однієї. Як виявилось, MSbet Between складається з дисперсії сукупності плюс дисперсії, отриманої на основі відмінностей між вибірками. MSwithin - це оцінка дисперсії популяції. Оскільки дисперсії завжди позитивні, якщо нульова гіпотеза хибна, MSbetween зазвичай буде більшим, ніж MSwithin, тоді коефіцієнт F буде більшим за одиницю. Однак, якщо ефект популяції невеликий, малоймовірно, що MSwithin буде більшим у даній вибірці.

Попередні розрахунки проводились з групами різних розмірів. Якщо групи однакового розміру, розрахунки дещо спрощуються і
Коефіцієнт F можна записати як:

Формула F-співвідношення, коли групи однакового розміру

n = обсяг вибірки
dfnumerator = k - 1
dfdenominator = n - k
s 2 об'єднане = середнє значення дисперсії вибірки (об'єднана дисперсія)
[латекс] \ displaystyle _ >> ^ >>> [/ латекс] = дисперсія середнього значення вибірки

Дані зазвичай розміщуються в таблиці для зручності перегляду. Односторонні результати ANOVA часто відображаються таким чином за допомогою комп'ютерного програмного забезпечення.

Джерело варіаційної суми квадратів (
СС) Ступінь свободи (
df) Середній квадрат (
РС) F

Фактор (між)	СС (коефіцієнт)	k - 1	MS (фактор) = SS (фактор)/(k - 1)	F = MS (фактор)/MS (помилка)
Помилка (всередині)	SS (Помилка)	n - k	MS (Помилка) = SS (Помилка)/(n –k)
Разом	SS (Всього)	n - 1

Приклад

Три різні дієтичні плани мають бути перевірені на середню втрату ваги. Записи в таблиці - це втрати ваги для різних планів. Односторонні результати ANOVA наведені в таблиці тут.

План 1:
n1 = 4 План 2:
n2 = 3 План 3:
n3 = 3

5	3.5	8
4.5	7	4
4
3	4.5

Далі наведені розрахунки, необхідні для заповнення односторонньої таблиці ANOVA. Таблиця використовується для проведення перевірки гіпотези.

Використання калькулятора

Одностороння таблиця ANOVA: Формули для
SS (Всього), SS (Фактор) = SS (Між) та SS (Помилка) = SS (В межах), як показано раніше.

Таку саму інформацію надає функція перевірки гіпотези TI калькулятора ANOVA в ДЕРЖАВНИХ ТЕСТАХ (синтаксис ANOVA (L1, L2, L3), де L1, L2, L3 мають дані з плану 1, плану 2, плану 3 відповідно).

Джерело варіаційної суми квадратів (
СС) Ступінь свободи (
df) Середній квадрат (
РС) F

Фактор (між)	SS (коефіцієнт) = SS (між) = 2.2458	k - 1 = 3 групи - 1 = 2	MS (коефіцієнт) = SS (коефіцієнт)/(k– 1) = 2.2458/2 = 1.1229	F = MS (коефіцієнт)/MS (помилка) = 1.1229/2.9792 = 0.3769
Помилка (всередині)	SS (помилка) = SS (всередині) = 20,8542	n - k = 10 загальних даних - 3 групи = 7	MS (Помилка) = SS (Помилка)/(n– k) = 20,8542/7 = 2,9992
Разом	СС (Всього) = 2,2458 + 20,8542 = 23,1	n - 1 = 10 загальних даних - 1 = 9

Спробуй це

В рамках експерименту з метою з’ясувати, як різні типи ґрунтового покриву впливатимуть на нарізання томатів, студенти Марістського коледжу вирощували рослини томатів за різних умов ґрунтового покриву. Групи з трьох рослин проходили одну з наступних процедур

голий грунт
комерційний ґрунтовий покрив
чорний пластик
солома
компост

Всі рослини росли в однакових умовах і мали однаковий сорт. Студенти реєстрували вагу (у грамах) помідорів, вироблених кожною з n = 15 рослин:

Голі:
n1 = 3 ґрунтовий покрив:
n2 = 3 Пластик:
n3 = 3 Солома:
n4 = 3 Компост:
n5 = 3

2625	5348	6583	7 285	6 277
2997	5682	8,560	6897	7818
4915	5482	3830	9 230	8 677

Створіть односторонню таблицю ANOVA.

Введіть дані в списки L1, L2, L3, L4 та L5. Натисніть STAT та стрілку до TESTS. Стрілка вниз до ANOVA. Натисніть ENTER і введіть L1, L2, L3, L4, L5). Натисніть ENTER. Таблиця була заповнена результатами з калькулятора.

Одностороння таблиця ANOVA:

Джерело варіаційної суми квадратів (
СС) Ступінь свободи (
df) Середній квадрат (
РС) F

Фактор (між)	36 648 561	5 - 1 = 4	[латекс] \ displaystyle \ frac, >>> =, [/ латекс]	[латекс] \ displaystyle \ frac, >>, >> = [/ латекс]
Помилка (всередині)	20 446 726	15 - 5 = 10	[латекс] \ displaystyle \ frac, >>> =, [/ латекс]
Разом	57 095 287	15 - 1 = 14

Однобічний тест гіпотези ANOVA завжди має правильний характер, оскільки більший
Значення F знаходяться у правому хвості кривої розподілу F і, як правило, змушують нас відкинути H 0.

Позначення

Позначення розподілу F - F

Список літератури

Tomato Data, Marist College School of Science (неопубліковане дослідження студентів)

Огляд концепції

Дисперсійний аналіз порівнює середні значення змінної відповіді для кількох груп. ANOVA порівнює зміни в межах кожної групи із варіацією середнього значення кожної групи. Співвідношення цих двох є
Статистика F з розподілу F з (число груп - 1) як чисельник ступенів свободи та (кількість спостережень - кількість груп) як знаменник ступенів свободи. Ці статистичні дані узагальнені в таблиці ANOVA.

Огляд формули

dfbetween = df (num) = k - 1

де:
k = кількість груп nj = розмір j-ї групи sj = сума значень у j-й групі n = загальна кількість усіх значень (спостережень), об'єднаних x = одне значення (одне спостереження) з даних [латекс ] \ displaystyle _ >> ^ >>> [/ латекс] = середнє значення дисперсій вибірки (об'єднана дисперсія)