Розуміння статистичного тестування потужності та значимості

інтерактивна візуалізація

Слідуйте @krstoffr
Профіль Kristoffer у LinkedIn

Помилки типу I та типу II, β, α, p-значення, потужність та розміри ефекту - ритуал перевірки значущості нульової гіпотези містить багато дивних понять.

Про тестування значущості було сказано багато - більшість з них негативні. Методологи постійно зазначають, що дослідники неправильно трактують р-значення. Деякі кажуть, що це в кращому випадку безглузда вправа, а в гіршому - перешкода науковим відкриттям. Отже, я вважаю надзвичайно важливим, щоб студенти та дослідники правильно інтерпретували статистичні тести. Ця візуалізація призначена як допомога студентам, коли вони вивчають тестування статистичних гіпотез. Візуалізація базується на Z-тесті з одного зразка. Ви можете змінювати розмір вибірки, потужність, рівень значимості та розмір ефекту за допомогою повзунків, щоб побачити, як змінюється розподіл вибірки.

Налаштування

Обсяг вибірки

Розмір ефекту

Уточнення щодо потужності ("-"), коли ефект дорівнює 0

Візуалізація покаже, що "потужність" та "помилка типу II" дорівнює "-", коли d встановлено на нуль. Однак частота помилок типу I передбачає, що певна кількість тестів відхилить H0. Спокусливо також сказати, що цей коефіцієнт є "силою" тесту, і часто підручники та програмне забезпечення роблять саме це. Деякі джерела також говорять, що потужність дорівнює нулю, коли H0 дорівнює Ha. На мою думку, потужність не визначається, коли передбачуваний ефект є елементом простору параметрів H0. У цьому випадку функція потужності повертає α, і тому "потужність" не визначена. Отже, хоча функція потужності говорить, що 5% тестів відхилять нуль, немає сенсу говорити про "потужність" тут. Це також означає, що при наближенні Ha потужність наближатиметься до α при малих значеннях d. Як результат, повзунок для "потужності" не повинен бути рівним або меншим за α.

Пожертвувати

Вміст цього блогу розповсюджується безкоштовно за ліцензією CC-BY. Якщо вам подобається моя робота і ви хочете підтримати її, ви можете:

Купи мені каву (або скористайся PayPal)

Ви також можете спонсорувати мою роботу з відкритим кодом за допомогою спонсорів GitHub

Більше візуалізації

Інтерпретація співвідношень

Інтерактивна візуалізація кореляцій

Д. Коена

Інтерактивна візуалізація розміру ефекту Коена d

Довірчі інтервали

Інтерактивна візуалізація довірчих інтервалів

Деякі відгуки NHST

Я глибоко скептично ставлюсь до сучасного використання тестів на значимість. Наступні цитати можуть викликати у вас інтерес до суперечок навколо NHST.

"Що поганого в [перевірка значущості нульової гіпотези]? Ну, серед багатьох інших речей, це не говорить нам про те, що ми хочемо знати, і ми так хочемо знати, що ми хочемо знати, що, з відчаю, ми тим не менше віримо що це робить! "

- Коен (1994)

"... безсумнівно, найбільш оманливо-оманлива процедура, коли-небудь інституціоналізована в систематичному навчанні студентів природничих наук"

- Rozeboom (1997)

"... незважаючи на надзвичайну популярність, яку цей метод досяг у наших журналах та підручниках прикладної статистики, він заснований на принциповому нерозумінні природи раціонального висновку і рідко, якщо коли-небудь відповідає цілям наукових досліджень"

- Rozeboom (1960)

"... приклад якоїсь суттєвої безглуздості у проведенні досліджень" - Бакан (1966)

- Бакан (1966)

«Статистичне тестування значущості стримує зростання наукових знань; це ніколи не робить позитивного внеску »

- Шмідт і Хантер (1997)

“Підручники помиляються. Вчення неправильне. Семінар, який ви щойно відвідали, помилковий. Найпрестижніший журнал у вашій науковій галузі помилковий ".

- Зіліак і Макклоскі (2008)