13. Дизайн дослідження та вибір статистичного тесту

Дизайн

Багато в чому дизайн дослідження є важливішим за аналіз. Погано розроблене дослідження ніколи не можна отримати, тоді як погано проаналізоване, як правило, можна повторно проаналізувати. (1) Розгляд проекту також важливий, оскільки дизайн дослідження визначатиме спосіб аналізу даних.

Більшість медичних досліджень розглядають вхідні дані, які можуть бути медичним втручанням чи впливом потенційно токсичної сполуки, і вихідні дані, які є певним показником здоров’я, на який втручання має вплинути. Найпростіший спосіб класифікації досліджень - це посилання на часову послідовність, в якій вивчаються вхідні та вихідні дані.

Найпотужнішими дослідженнями є перспективні дослідження, і парадигмою для них є рандомізоване контрольоване дослідження. У цьому суб'єкти із захворюванням рандомізовані на одне з двох (або більше) методів лікування, один з яких може бути контрольним лікуванням. Методи рандомізації були описані в главі 3. Важливість рандомізації полягає в тому, що ми, Імоу, у тривалих групах лікування будуть збалансовані за відомими та невідомими прогностичними факторами. Важливо, щоб лікування проводилося одночасно - щоб активне та контрольне лікування відбувалися в один і той же проміжок часу.

Паралельна групова конструкція - це така, при якій лікування та контроль розподіляються між різними особами. Щоб забезпечити терапевтичний ефект простого лікування, контроль може складатися з плацебо, інертної речовини, яка фізично ідентична активній сполуці. По можливості дослідження слід подвійно сліпити - ні слідчий, ні суб'єкт не знають про те, яке лікування проходить суб'єкт. Іноді неможливо засліпити випробовуваних, наприклад, коли лікування є якоюсь формою медичного навчання, але часто можна переконатися, що люди, які оцінюють результат, не знають про лікування. Приклад паралельного групового випробування наведено в таблиці 7.1, в якій різні препарати висівок випробовували на різних особах.

Відповідна конструкція виникає, коли рандомізація проводиться між відповідними парами, наприклад у вправі 6.2, в якій рандомізація проводилася між різними частинами тіла пацієнта.

Кросингове дослідження - це дослідження, при якому два або більше методів лікування застосовуються послідовно до одного і того ж суб’єкта. Переваги полягають у тому, що кожен суб’єкт тоді діє як власний контроль, і тому може знадобитися менша кількість суб’єктів. Основним недоліком є те, що може бути ефект перенесення, оскільки дія другої обробки впливає на першу обробку. Приклад перехресного випробування наведено в таблиці 7.2, в якій різні дози висівок порівнюються в межах однієї людини. Про клінічні випробування доступна низка чудових книг. (2, 3)

Однією з основних загроз дійсності клінічного випробування є відповідність. Пацієнти, швидше за все, кидають випробування, якщо лікування неприємне, і часто не приймають ліки за призначенням. Зазвичай застосовують прагматичний підхід та аналізують за наміром лікувати, тобто аналізують дослідження за лікуванням, яке було призначено випробовуваному, а не за тим, яким вони насправді брали участь. Альтернативою є аналіз за протоколом або під час дослідження. Звісно, про вибування слід повідомляти групу лікування. Є контрольний список для написання звітів про клінічні випробування. (4, 5)

Квазі експериментальний дизайн - це такий, при якому розподіл лікування не є випадковим. Приклад цього наведено в таблиці 9.1, де порівнюються травми в двох зонах падіння. Це піддається потенційним упередженням, оскільки причина, через яку людина потрапляє до певної зони падіння, може бути пов’язана з ризиком вивиху щиколотки.

Когортне дослідження - це дослідження, за яким протягом періоду спостерігаються суб’єкти, спочатку вільні від хвороб. Деякі з них будуть піддані деякому фактору ризику, наприклад, куріння сигарет. Результатом може бути смерть, і ми можемо бути зацікавлені у зв’язку фактора ризику з конкретною причиною смерті. Очевидно, що це повинні бути великі, довгострокові дослідження, і, як правило, їх проведення коштує дорого. Якщо записи в минулому регулярно велись, то може бути проведено історичне когортне дослідження, прикладом якого є дослідження апендициту, обговорене в главі 6. Тут когорта - це всі випадки апендициту, допущені протягом певного періоду, і зразок записи можна було перевірити ретроспективно. Типовим прикладом може бути розгляд записів ваги при народженні та співвідношення ваги народження із захворюваннями в подальшому житті.

Ці дослідження за своєю суттю відрізняються від ретроспективних досліджень, які починаються з хворих, а потім вивчають можливий вплив. Такі дослідження контролю випадків зазвичай проводяться як попереднє розслідування, оскільки вони відносно швидкі та недорогі. Порівняння артеріального тиску у фермерів та друкарів, наведене в главі 3, є прикладом дослідження випадків контролю. Це ретроспективно, тому що ми сперечалися від рівня артеріального тиску до заняття, а не починали з предметів, призначених для занять. У дослідженнях, пов’язаних із контролем справи, є багато незрозумілих факторів. Наприклад, чи професійний стрес спричиняє високий кров'яний тиск, чи люди, схильні до високого кров'яного тиску, вибирають стресові заняття? Особливою проблемою є упередженість відкликання, оскільки випадки хвороби мають більше спонукань згадувати очевидно тривіальні епізоди в минулому, ніж контролі, які не хворіють на захворювання.

Дослідження поперечного перерізу є загальним явищем і включають опитування, лабораторні експерименти та дослідження з метою вивчення поширеності захворювання. Дослідження, що підтверджують інструменти та анкети, також є поперечними дослідженнями. Дослідження концентрації свинцю в сечі у дітей, описане в главі 1, та вивчення взаємозв'язку між висотою та легеневим анатомічним мертвим простором у главі 11 також були дослідженнями поперечного перерізу.

Обсяг вибірки

Одне з найпоширеніших запитань статистиків щодо дизайну - це кількість пацієнтів, яких слід включити. Це важливе питання, оскільки, якщо дослідження замале, воно не зможе відповісти на поставлене питання, а це буде марною тратою часу та грошей. Це також можна визнати неетичним, оскільки пацієнти можуть бути піддані ризику без очевидної вигоди. Однак дослідження не повинні бути занадто великими, оскільки ресурси були б витрачені даремно, якщо б вистачило менше пацієнтів. Розмір вибірки залежить від чотирьох критичних величин: частоти помилок α та β типу I та типу II (обговорюється в главі 5), мінливості даних σ² та розміру ефекту d. У дослідженні розмір ефекту - це величина, на яку ми могли б очікувати, що два способи лікування відрізнятимуться, або це різниця, яка була б клінічно вартим.

Зазвичай α та β фіксуються на рівні 5% та 20% (або 10%) відповідно. Проста формула для двогрупового паралельного дослідження з безперервним результатом полягає в тому, що необхідний обсяг вибірки для групи дається для двостороннього α 5% та β 20%. Наприклад, у дослідженні для зниження артеріального тиску, якщо клінічно вартий ефект для діастолічного артеріального тиску становить 5 мм рт. Ст., А стандартне відхилення між суб'єктами - 10 мм рт. Ст., Нам знадобиться n = 16 х 100/25 = 64 пацієнти на групу в вивчення. Розмір вибірки збільшується як квадрат стандартного відхилення даних (дисперсія) і зменшується навпаки, як квадрат розміру ефекту. Подвоєння розміру ефекту зменшує розмір вибірки на чотири - виявити великі ефекти набагато простіше! На практиці розмір вибірки часто фіксується за іншими критеріями, такими як фінанси чи ресурси, і формула використовується для визначення реального розміру ефекту. Якщо це занадто велике, то від дослідження доведеться відмовитися або збільшити його розмір. Мачин та співавт. дати пораду щодо розрахунку розміру вибірки для широкого кола дослідницьких проектів. (6)

Вибір тесту

З точки зору вибору статистичного тесту, найважливішим питанням є "яка основна гіпотеза дослідження?" У деяких випадках відсутня гіпотеза; слідчий просто хоче "подивитися, що там". Наприклад, у дослідженні поширеності не існує гіпотези для перевірки, а обсяг дослідження визначається тим, наскільки точно слідчий хоче визначити поширеність. Якщо немає гіпотези, то немає і статистичного тесту. Важливо апріорі вирішити, які гіпотези є підтверджуючими (тобто перевіряють певні передбачувані стосунки), а які дослідницькими (як пропонують дані). Жодне окреме дослідження не може підтримати цілий ряд гіпотез.

Розумним планом є суворе обмеження кількості підтверджуючих гіпотез. Незважаючи на те, що допустимо використовувати статистичні тести на гіпотези, запропоновані даними, значення Р слід використовувати лише як орієнтир, а результати розглядати як дуже орієнтовні, поки не будуть підтверджені подальшими дослідженнями. Корисним посібником є використання корекції Бонферроні, яка просто говорить, що якщо перевіряється n незалежних гіпотез, слід використовувати рівень значущості 0,05/n. Таким чином, якби існували дві незалежні гіпотези, результат був би визнаний значущим лише за умови, що P