Как отдельный исследователь должен думать о частоте ложных открытий?

30

Я пытался обдумать, как частота ложных открытий (FDR) должна отражать выводы отдельного исследователя. Например, если ваше исследование недостаточно эффективно, следует ли вам сбрасывать со счетов результаты, даже если они значимы при ? Примечание: я говорю о FDR в контексте изучения результатов нескольких исследований в совокупности, а не в качестве метода нескольких тестовых исправлений.αзнак равно+0,05

Делая (возможно, щедрое) предположение, что ~0,5 проверенных гипотез на самом деле верны, FDR является функцией как частоты ошибок типа I, так и типа II следующим образом:

FDRзнак равноαα+1-β,

Само собой разумеется , что если исследование недостаточно развито , мы не должны доверять результатам, даже если они значительны, так же, как и исследованиям с достаточной степенью достоверности. Таким образом, как говорят некоторые статистики , существуют обстоятельства, при которых «в долгосрочной перспективе» мы можем опубликовать много значительных результатов, которые будут ложными, если мы будем следовать традиционным рекомендациям. Если объем исследований характеризуется последовательно недостаточными исследованиями (например, литература о взаимодействии генов и среды обитания кандидата в предыдущем десятилетии ), даже подозрительные повторные значимые результаты могут быть подозрительными.×

Применение пакетов R extrafont, ggplot2и xkcd, я думаю , что это может быть полезно осмысляется как вопрос о перспективе: Значительный результат ...

Не уверен ...

Учитывая эту информацию, что должен делать отдельный исследователь ? Если у меня есть предположение о том, каким должен быть размер изучаемого эффекта (и, следовательно, оценка , учитывая размер моей выборки), должен ли я корректировать свой уровень α до FDR = 0,05? Должен ли я публиковать результаты на уровне α = 0,05, даже если мои исследования недостаточно развиты и оставляют рассмотрение FDR потребителям литературы?1-βααзнак равно+0,05

Я знаю, что эта тема часто обсуждалась как на этом сайте, так и в статистической литературе, но я не могу прийти к единому мнению по этому вопросу.


РЕДАКТИРОВАТЬ: В ответ на комментарий @ amoeba, FDR может быть получена из стандартной таблицы непредвиденных обстоятельств ошибки типа I / типа II (извините за уродство):

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

Таким образом, если мы представляем значительный вывод (столбец 1), вероятность того, что оно ложно в реальности, составляет альфа от суммы столбца.

Но да, мы можем изменить наше определение FDR, чтобы отразить (предыдущую) вероятность того, что данная гипотеза верна, хотя мощность исследования все еще играет роль:(1-β)

FDR=α(1prior)α(1prior)+(1β)prior
Ричард Бордер
источник
Это может не дать вам однозначного ответа на ваш вопрос, но вы можете найти вдохновение в этом тексте.
JohnRos
1
Статья Дэвида Колкухуна, на которую вы ссылаетесь , совсем недавно обсуждалась здесь (с @DavidColquhoun, присоединяющейся к самому обсуждению), вам может быть интересно взглянуть.
говорит амеба: восстанови Монику
2
αβ
2
Хорошо, хорошо, я должен взять это обратно: ваша оригинальная формула верна в особом случае, когда предыдущая вероятность p=0.5pp=0prior=11
1
α

Ответы:

6

p

Вместо этого важно, чтобы все исследования были доступны, независимо от уровня мощности или значительных результатов. На самом деле, плохая привычка публиковать только значимые и скрывать незначительные результаты приводит к смещению публикаций и искажает общую картину научных результатов.

Таким образом, отдельный исследователь должен проводить исследование воспроизводимым образом, хранить все записи и регистрировать все экспериментальные процедуры, даже если такие подробности не запрашиваются издательскими журналами. Он не должен слишком беспокоиться о малой мощности. Даже неинформативный результат (= нулевая гипотеза не отвергнута) может добавить больше оценок для дальнейших исследований, если можно обеспечить достаточное качество самих данных.

ppp

Хорст Грюнбуш
источник
Хорст, ты, кажется, отвечаешь на другой вопрос, нежели был задан.
Алексис
1
Обратите внимание, что вопрос о FDR между исследованиями, а не внутри. Это включает в себя некоторый байесовский подход, чтобы иметь приемлемый общий уровень правильных решений. В моем ответе подчеркивается, что общее суждение скорее делается путем объединения данных и оценок исследования, а не решений, поэтому проблема решается путем создания огромного «виртуального исследования», при условии, что данные (а не решения) отдельных исследований являются надежными.
Хорст Грюнбуш
6

ααзнак равно+0,05

α

С другой стороны, даже несмотря на то, что я долго обсуждал с @DavidColquhoun некоторые конкретные утверждения в его статье, я на определенном уровне согласен с его практическими рекомендациями в том, что не кажется мне особенно убедительным доказательством. Лично я научился считать его относительно слабым и совсем не убежден во многих опубликованных результатах, которые зависят от одного p 0,05 . По-настоящему убедительные научные результаты обычно имеют крошечнуюп<0,05п0,05пп«0,05п-значение опять будет крошечным).

α

амеба говорит восстановить монику
источник
5

Это на самом деле глубокий философский вопрос. Я сам исследователь, и я немного подумал об этом. Но перед ответом давайте рассмотрим, каков уровень ложных открытий.

FDR в сравнении с P P - это просто мера вероятности сказать, что есть различие, когда вообще нет разницы и оно не учитывает мощность. FDR, с другой стороны, принимает во внимание власть. Однако, чтобы рассчитать FDR, мы должны сделать предположение: какова вероятность того, что мы получим истинно положительный результат? Это то, к чему у нас никогда не будет доступа, кроме как при очень надуманных обстоятельствах. Я действительно говорил об этом недавно на семинаре, который я дал. Вы можете найти слайды здесь .

Вот рисунок из статьи Дэвида Колкухуна на эту тему:

Calquhoun 2014

Уровень ложных открытий вычисляется путем деления числа ложных срабатываний на сумму истинных положительных результатов и ложных положительных результатов (в данном примере 495 / (80 + 495) x 100% = 86%!

Еще немного о P

Внимательно посмотрите на слайды из моей лекции. Я обсуждал тот факт, что значения P взяты из распределения. Это означает, что всегда будет шанс, что вы найдете ложное срабатывание. Поэтому статистическая значимость не должна рассматриваться как абсолютная истина. Я утверждаю, что что-то, что является статистически значимым, следует интерпретировать как: «Эй, здесь может быть что-то интересное, я не уверен, что кто-то пройдет двойную проверку!» Отсюда и фундаментальное понятие воспроизводимости в исследованиях!

Так что же нам делать? Что ж, интересный момент в отношении рисунка выше и моего анализа P и FDR заключается в том, что единственный способ достичь ясного понимания - это 1) воспроизводимость и 2) публикация всех результатов. Это включает отрицательные результаты (хотя отрицательные результаты трудно интерпретировать). Однако выводы, которые мы делаем из наших результатов, должны быть уместными. К сожалению, многие читатели и исследователи не до конца понимают понятия P и FDR. Я считаю, что читатели обязаны надлежащим образом анализировать результаты ... это означает, что бремя в конечном итоге ложится на плечи педагогов. В конце концов, значение P, равное 0,000000001, не имеет смысла, если «распространенность» (см. Рисунок выше) равна 0 (в этом случае уровень ложного обнаружения будет равен 100%).

Как исследователь публикации, будьте осторожны, чтобы полностью понять свои результаты и делать заявления только настолько сильными, насколько вы пожелаете. Если выясняется, что FDR для вашего конкретного исследования составляет 86% (как в примере выше), то вам следует быть очень осторожным в своих интерпретациях. С другой стороны, если FDR достаточно мал для вашего удобства ... все же будьте осторожны с вашими интерпретациями.

Я надеюсь, что здесь все было ясно. Это очень важная концепция, и я рад, что вы подняли дискуссию. Дайте мне знать, если у вас есть какие-либо вопросы / проблемы / и т.д.

justanotherbrain
источник
1
@Alexis Нет такого понятия, как учеба с сильным влиянием! Пока размер эффекта замечен, не может быть никакого вреда в возможности более точно определить размер эффекта, проводя исследование с большим размером выборки. Мне кажется, что понятие «подавленный» связано с пустым представлением о том, что можно сделать полезные выводы, посмотрев на P-значение, не глядя на наблюдаемые данные.
Майкл Лью
1
@MichaelLew: Вы правы в том, что проблема подавления может быть (частично) решена, если вы всегда учитываете предполагаемый размер эффекта вместе с p-значением. Однако это немного противоречит цели p-значений: отображение оценки эффекта на результаты двоичного теста «эффект присутствует / не присутствует», так что частота ошибок типа I является правильной. Кроме того, ваше мнение о том, каким может быть соответствующий размер эффекта, может измениться, когда вы увидите значение p. Таким образом, на самом деле лучше всего решить проблему, предварительно указав соответствующий диапазон эффектов, а затем сравнить его с КИ исследования, как предположила Алексис.
Хорст Грюнбуш
1
θ
1
До некоторой степени ... Я был строго говоря с точки зрения статистического вывода , а вы говорите больше о логике дизайна исследования и онтологии производства научных знаний. Тем не менее, я чувствую, что положительные результаты , которые не интерпретируются так же тщательно, как протокол и т. Д., С такой же вероятностью будут ложными, как и отрицательные. Не все явления вселенной можно изучать изолированно (например, здоровье как индивидуума, так и населения одновременно является химическим, социальным, поведенческим и т. Д.), И поэтому онтологические неопределенности должны сопровождать исследования таких сложных систем.
Алексис
2
@ HorstGrünbusch Я не вижу первоначального вопроса в гибридном контексте, поскольку он касается альфа и бета, а не значений Р. Однако ответу justanotherbrain, безусловно, потребуется тщательная доработка, чтобы поместить его исключительно в систему Неймана и Пирсона или систему тестирования значимости. Частота ложных открытий действительно только в первом.
Майкл Лью
3

Чтобы помочь понять отношения, я создал этот график FDR как функцию априорной вероятности для различных степеней (с альфа = 0,05). Обратите внимание на этот график, и уравнение @Buckminster вычисляет FDR для всех результатов с P меньше, чем альфа. График выглядел бы иначе, если бы вы рассматривали только значения P, очень близкие к значению P, которое вы наблюдали в одном исследовании.

Харви Мотульский
источник
2
и вот блестящая версия приложения (хотя и немного другая): buckminster.shinyapps.io/FalseDiscoveryRate
Ричард Бордер,
1

Предложить публикацию - это решение. Я думаю, что стоит изучить, какие выгоды и затраты связаны с этим решением.

1) Академическая среда всегда побуждает исследователей публиковать больше, хотя различные рейтинги публикаций повлияют и на эту запись. Мы можем предположить, что более престижные журналы могут иметь более надежную проверку качества (я надеюсь, что так).

2) Возможны социальные издержки, связанные со слишком большим выпуском публикаций. Эти ресурсы могут быть лучше использованы где-то еще, например, в прикладных исследованиях без публикации результатов. Недавно была публикация, что многие публикации не являются важными источниками, поскольку огромное количество новых публикаций настолько велико ... :)

http://arxiv.org/pdf/1503.01881v1.pdf

Для индивидуального исследователя номер один заставляет публиковать больше, и я думаю, что должны быть организованные проверки качества, которые не зависят от отдельных людей, чтобы сохранить качество на приемлемом уровне.

В любом случае ваши значения параметров не являются фактами, им должны присваиваться значения с учетом различных затрат и выгод, связанных с количеством опубликованных результатов, когда результаты действительно и / или ложно значимы.

Аналитик
источник