Чому більшість опублікованих результатів досліджень є помилковими

Резюме

Зростає занепокоєння тим, що більшість опублікованих в даний час результатів досліджень є хибними. Імовірність того, що твердження дослідження відповідає дійсності, може залежати від потужності та упередженості дослідження, кількості інших досліджень з того самого питання та, що важливо, співвідношення істинних та відсутніх зв'язків між зв'язками, що досліджуються у кожній науковій галузі. У цьому контексті результати дослідження менш вірогідні, коли дослідження, проведені в галузі, менші; коли розміри ефекту менші; коли існує більша кількість і менший попередній вибір перевірених відносин; де є більша гнучкість у конструкціях, визначеннях, результатах та аналітичних режимах; коли є більший фінансовий та інший інтерес та упередження; і коли більше команд бере участь у науковій галузі в погоні за статистичною значимістю. Моделювання показує, що для більшості конструкцій та налаштувань дослідження, швидше за все, твердження дослідження є хибним, ніж істинним. Більше того, для багатьох сучасних наукових галузей заявлені результати досліджень часто можуть бути просто точними вимірами переважаючого упередження. У цьому нарисі я обговорюю наслідки цих проблем для проведення та інтерпретації досліджень.

Опубліковані результати досліджень іноді спростовуються наступними доказами, що викликає розгубленість і розчарування. Спростування та суперечки спостерігаються у цілому ряді дослідницьких проектів, від клінічних випробувань та традиційних епідеміологічних досліджень [1–3] до найсучасніших молекулярних досліджень [4,5]. Зростає занепокоєння тим, що в сучасних дослідженнях хибні висновки можуть становити більшість або навіть переважну більшість опублікованих тверджень про дослідження [6–8]. Однак це не повинно дивувати. Можна довести, що більшість заявлених результатів досліджень є хибними. Тут я розгляну ключові фактори, що впливають на цю проблему, та деякі наслідки з неї.

Моделювання основи для помилково позитивних висновків

Кілька методологів зазначали [9–11], що високий рівень неповторення (відсутність підтвердження) дослідницьких відкриттів є наслідком зручної, але необґрунтованої стратегії висунення остаточних результатів дослідження виключно на основі одного оціненого дослідження за офіційною статистичною значимістю, як правило, для р-значення менше 0,05. Дослідження не є найбільш належним чином представленими та узагальненими за значеннями p, але, на жаль, широко поширене уявлення про те, що статті медичних досліджень слід тлумачити лише на основі p-значень. Результати досліджень тут визначаються як будь-які відносини, що досягають офіційної статистичної значущості, наприклад, ефективні втручання, інформативні прогностичні фактори, фактори ризику або асоціації. “Негативні” дослідження також дуже корисні. "Негатив" насправді є неправильним терміном, і неправильне тлумачення широко поширене. Однак тут ми будемо націлювати стосунки, які, на думку слідчих, існують, а не на нульові висновки.

Можна довести, що більшість заявлених результатів досліджень є хибними

Таблиця 1

Менш добре оцінюється те, що упередженість та ступінь неодноразових незалежних випробувань різними групами слідчих по всьому світу можуть ще більше спотворити цю картину і можуть призвести до ще менших ймовірностей того, що результати досліджень справді відповідають дійсності. Ми спробуємо змоделювати ці два фактори в контексті подібних таблиць 2 × 2.

Панелі відповідають потужності 0,20, 0,50 та 0,80.

Таблиця 2

Тестування кількома незалежними командами

Панелі відповідають потужності 0,20, 0,50 та 0,80.

Таблиця 3

Висновки

Практичний приклад наведено у вставці 1. На підставі вищезазначених міркувань можна вивести кілька цікавих наслідків щодо ймовірності того, що результати дослідження справді відповідають дійсності.

Вставка 1. Приклад: Наука з низькими коефіцієнтами перед дослідженням

Припустимо, що група дослідників проводить ціле дослідження асоціації геномів, щоб перевірити, чи пов'язаний якийсь із 100 000 генних поліморфізмів із сприйнятливістю до шизофренії. Виходячи з того, що ми знаємо про ступінь спадковості хвороби, можна розумно сподіватися, що, мабуть, близько десяти генних поліморфізмів серед випробуваних справді були б асоційовані з шизофренією, з відносно подібними коефіцієнтами шансів близько 1,3 для десяти або близько того поліморфізмів досить схожа сила ідентифікувати будь-якого з них. Тоді R = 10/100 000 = 10 −4, і ймовірність попереднього вивчення будь-якого поліморфізму, пов’язаного з шизофренією, також є R/(R + 1) = 10 −4. Припустимо також, що дослідження має 60% потужності, щоб знайти асоціацію із співвідношенням шансів 1,3 при α = 0,05. Тоді можна підрахувати, що якщо виявлено статистично значущу асоціацію зі значенням р, яке ледве переходить поріг 0,05, ймовірність того, що це правда після дослідження, зростає приблизно в 12 разів порівняно з імовірністю перед дослідженням, але вона все ще лише 12 × 10 −4 .

Висновок 1: Чим менші дослідження, проведені в науковій галузі, тим менша ймовірність того, що результати дослідження будуть правдивими. Малий розмір вибірки означає меншу потужність, і для всіх функцій, наведених вище, PPV для справжнього результату дослідження зменшується із зменшенням потужності до 1 - β = 0,05. Таким чином, за інших рівних факторів, результати досліджень більш вірогідні в наукових галузях, що проводять великі дослідження, таких як рандомізовані контрольовані дослідження в кардіології (декілька тисяч випробуваних) [14], ніж у наукових областях з невеликими дослідженнями, як, наприклад, більшість досліджень молекулярні провісники (розмір вибірки в 100 разів менший) [15].

Висновок 2: Чим менший розмір ефекту в науковій галузі, тим менша ймовірність виявлення результатів дослідження. Потужність також залежить від розміру ефекту. Таким чином, результати досліджень вірогідніші у наукових галузях з великими наслідками, таких як вплив куріння на рак або серцево-судинні захворювання (відносний ризик 3–20), ніж у наукових галузях, де постульовані ефекти малі, такі як генетичні фактори ризику для мультигенетичних хвороби (відносні ризики 1,1–1,5) [7]. Сучасна епідеміологія дедалі більше зобов’язана орієнтуватися на менші розміри ефекту [16]. Отже, частка правдивих результатів досліджень, як очікується, зменшиться. З тієї ж точки зору, якщо справжній розмір ефекту в науковій галузі дуже малий, ця сфера, ймовірно, страждає від майже всюдисущих помилково позитивних тверджень. Наприклад, якщо більшість справжніх генетичних або харчових детермінант складних захворювань приносять відносний ризик менше 1,05, генетична або харчова епідеміологія буде в основному утопічними зусиллями.

Висновок 3: Чим більша кількість і менший вибір перевірених взаємозв’язків у науковій галузі, тим менша ймовірність того, що результати досліджень будуть правдивими. Як показано вище, ймовірність того, що висновок відповідає дійсності (ППВ), багато в чому залежить від шансів перед дослідженням (R). Таким чином, результати досліджень вірогідніші у підтверджувальних задумах, таких як великі рандомізовані контрольовані випробування фази III або їх мета-аналіз, ніж у експериментах, що генерують гіпотези. Поля, що вважаються високоінформативними та творчими, враховуючи багатство зібраної та перевіреної інформації, такі як мікрочипи та інші високопродуктивні дослідження, орієнтовані на відкриття [4,8,17], повинні мати надзвичайно низький PPV.

Висновок 5: Чим більші фінансові та інші інтереси та упередження в науковій галузі, тим менша ймовірність виявлення результатів дослідження. Конфлікти інтересів та упередження можуть посилити упередженість, u. Конфлікти інтересів дуже часто зустрічаються в біомедичних дослідженнях [26], і, як правило, про них повідомляється неадекватно та в незначній мірі [26,27]. Упередження не обов'язково мають фінансові корені. Вчені в даній галузі можуть мати упередження виключно через їхню віру в наукову теорію або прихильність власним висновкам. Багато інших, здавалося б, незалежних університетських досліджень можуть проводитись не з іншої причини, аніж для того, щоб надати медикам та дослідникам кваліфікацію для просування по службі або перебування на посаді. Такі нефінансові конфлікти також можуть призвести до спотворених повідомлених результатів та інтерпретацій. Престижні слідчі можуть придушити за допомогою процесу експертної перевірки появу та розповсюдження висновків, які спростовують їх висновки, тим самим засуджуючи свою сферу на продовження помилкових догм. Емпіричні дані щодо висновку експертів показують, що він надзвичайно ненадійний [28].

Висновок 6: Чим гарячіша наукова галузь (із залученням більшої кількості наукових груп), тим менше ймовірність того, що результати досліджень будуть правдивими. Цей, здавалося б, парадоксальний наслідок випливає, оскільки, як було зазначено вище, PPV поодиноких знахідок зменшується, коли багато команд слідчих беруть участь в одній галузі. Це може пояснити, чому ми іноді бачимо сильний ажіотаж, за яким швидко йдуть серйозні розчарування у сферах, які привертають широку увагу. Багато команд, які працюють на одному полі та отримують великі експериментальні дані, є важливим для виграшу змагань. Таким чином, кожна команда може визначити пріоритет щодо досягнення та розповсюдження своїх найбільш вражаючих «позитивних» результатів. “Негативні” результати можуть стати привабливими для поширення лише в тому випадку, якщо якась інша команда виявила “позитивну” асоціацію з того самого питання. У такому випадку може бути привабливо спростувати претензію, подану в якомусь престижному журналі. Термін Феномен феномен був уведений для опису цього явища швидко чергуються екстремальних дослідницьких тверджень і вкрай протилежних спростувань [29]. Емпіричні дані свідчать про те, що така послідовність крайніх протилежностей дуже поширена в молекулярній генетиці [29].

Ці наслідки розглядають кожен фактор окремо, але ці фактори часто впливають один на одного. Наприклад, слідчі, які працюють у сферах, де справжні розміри ефектів вважаються малими, можуть з більшою ймовірністю проводити великі дослідження, ніж дослідники, що працюють у сферах, де справжні розміри ефектів сприймаються як великі. Або забобони можуть переважати у гарячій науковій галузі, ще більше підриваючи прогностичну цінність результатів своїх досліджень. Упереджені зацікавлені сторони можуть навіть створити бар'єр, який перешкоджає зусиллям щодо отримання та розповсюдження протилежних результатів. І навпаки, той факт, що галузь є гарячою або має значні інвестиційні інтереси, іноді може сприяти більш масштабним дослідженням та вдосконаленню стандартів досліджень, підвищуючи прогностичну цінність результатів своїх досліджень. Або масове тестування, орієнтоване на відкриття, може призвести до настільки великого виходу значущих взаємозв’язків, що слідчим вистачить звітувати та проводити подальший пошук і, таким чином, утримуватися від днопоглиблення та маніпуляцій.