15

Это дискуссионный вопрос о пересечении статистики и других наук. Я часто сталкиваюсь с одной и той же проблемой: исследователи в моей области, как правило, говорят, что нет никакого эффекта, когда значение p не меньше уровня значимости. В начале я часто отвечал, что это не то, как работает проверка гипотез. Учитывая, как часто возникает этот вопрос, я хотел бы обсудить этот вопрос с более опытными статистиками.

Давайте рассмотрим недавнюю статью в научном журнале «Лучшая издательская группа» Nature Communications Biology (есть несколько примеров, но давайте сосредоточимся на одном)

Исследователи интерпретируют не статистически значимый результат следующим образом:

Таким образом, хроническое умеренное ограничение калорий может продлить продолжительность жизни и улучшить здоровье приматов, но это влияет на целостность серого вещества мозга, не влияя на когнитивные функции .

Доказательство:

Однако показатели в задании лабиринта Барнса не отличались между контрольными животными и животными с ограниченной калорийностью (LME: F = 0,05, p = 0,82; рис. 2a). Аналогичным образом, задача самопроизвольного чередования не выявила никакой разницы между контрольными животными и животными с ограниченной калорийностью (LME: F = 1,63, p = 0,22; рис. 2b).

Авторы также предлагают объяснение отсутствия эффекта - но ключевым моментом является не объяснение, а само утверждение. Приведенные графики выглядят для меня значительно «на глаз» (рисунок 2).

Более того, авторы игнорируют предшествующие знания:

вредные эффекты ограничения калорий на когнитивные функции были зарегистрированы для крыс и церебральных и эмоциональных функций у людей

Я могу понять то же утверждение для огромных размеров выборки (без эффекта = практически без существенного эффекта), но в конкретной ситуации использовались сложные тесты, и для меня не очевидно, как выполнять вычисления мощности.

Вопросов:

Я пропустил какие-либо детали, которые делают их выводы обоснованными?
Принимая во внимание необходимость сообщать о отрицательных результатах в науке, как доказать, что это не «отсутствие результата» (что мы имеем с ), а «отрицательный результат (например, нет разницы между группами)» используя статистику? Я понимаю, что для огромных размеров выборки даже небольшие отклонения от нуля вызывают отклонение, но давайте предположим, что у нас есть идеальные данные, и нам все еще нужно доказать, что нулевое значение является практически истинным. $p > \alpha$
Должны ли статистики всегда настаивать на математически правильных выводах, таких как «имея эту власть, мы не смогли обнаружить эффект значительного размера»? Исследователи из других областей сильно не любят такие формулировки отрицательных результатов.

Я был бы рад услышать любые мысли о проблеме, и я прочитал и понял связанные вопросы на этом веб-сайте. Существует четкий ответ на вопросы 2) -3) с точки зрения статистики, но я хотел бы понять, как следует отвечать на эти вопросы в случае междисциплинарного диалога.

UPD: я думаю, что хорошим примером отрицательного результата является 1-й этап медицинских испытаний, безопасность. Когда ученые смогут решить, что препарат безопасен? Я предполагаю, что они сравнивают две группы и делают статистику по этим данным. Есть ли способ сказать, что этот препарат безопасен? Кокрейн использует точное «никаких побочных эффектов не обнаружено», но врачи говорят, что этот препарат безопасен. Когда соблюдается баланс между точностью и простотой описания, и мы можем сказать, что «нет никаких последствий для здоровья»?

hypothesis-testing Герман Демидов
источник

2

Вы называете результаты, которые не являются статистически значимыми, «отрицательным» исследованием. Это дефенестрирующий язык. Я изменил его так, чтобы он назывался таким, какой он есть: не статистически значимым, например,

. Если я не прав, скажите, пожалуйста, как. В противном случае, это полезный язык для вас и ваших сотрудников для описания исследования.

означает только то, что

. Если

, что может быть очень «положительным» найти в некоторых отношениях; возможно, это первое крупномасштабное эпидемиологическое исследование, в котором проверяется связь между химическим воздействием и здоровьем человека, которое показывает, что оно действительно безопасно.

p > α

$p > \alpha$

p > α

$p > \alpha$

p > α

$p > \alpha$

n = 500, 000

$n = 500,000$

AdamO

4

Примечание: я бы никогда не предложил использовать Природу в качестве руководства для правильного использования статистики.

Клифф AB

1

@ AdamO У меня есть пример двух работ, опубликованных более или менее в одно и то же время, в одной статье авторы утверждали, что они сильно отрицательны (это был их основной вывод), во втором, более мощном исследовании они обнаружили и оказали влияние. Но если бы первый автор написал: «Имея мощность 80% при величине эффекта 1, мы не смогли бы найти существенный эффект» - он не был бы опубликован даже в журнале с отрицательными результатами.

Герман Демидов

2

но не статистики спрашивают меня "как ты докажешь отрицательные результаты?" - и я не знаю, как ответить. Как насчет гипотезы, часто используемой в испытаниях эквивалентности ? Это включает в себя дополнительный термин как «запас эквивалентности» и может принимать во внимание среднее различие.

Penguin_Knight

2

Это распространенная ошибка, которую эксплуатирует Nature Publishing Group, но разница в престижности журналов огромна. Тем не менее, конечно, документы в самой Природе также могут иметь небрежную статистику.

говорит амеба: восстанови Монику

7

Я думаю, что иногда целесообразно интерпретировать нестатистически значимые результаты в духе «принять нулевую гипотезу». На самом деле, я видел статистически значимые исследования, интерпретируемые таким образом; исследование было слишком точным, и результаты соответствовали узкому диапазону ненулевых, но клинически незначимых эффектов. Вот несколько резкая критика исследования (или, более того, его прессы) о связи между потреблением шоколада / красного вина и его «целительным» воздействием на диабет. Кривые вероятности распределения инсулинорезистентности при высоком / низком потреблении истеричны.

Можно ли интерпретировать результаты как «подтверждающие H_0», зависит от множества факторов: достоверности исследования, мощности, неопределенности оценки и предыдущих доказательств. Отчет о доверительном интервале (CI) вместо значения p является, пожалуй, самым полезным вкладом, который вы можете внести как статистик. Я напоминаю исследователям и коллегам-статистикам, что статистика не принимает решения, люди принимают; Пропуск р-значений фактически способствует более вдумчивому обсуждению результатов.

Ширина CI описывает диапазон эффектов, которые могут включать или не включать ноль, и могут включать или не включать очень клинически значимые значения, такие как потенциал спасения жизни. Тем не менее, узкий CI подтверждает один тип эффекта; или последний тип, который является «значимым» в истинном смысле, или первый, который может быть нулевым, или что-то очень близкое к нулевому.

Возможно, необходимо более широкое понимание того, что такое «нулевые результаты» (и нулевые эффекты). Что меня разочаровывает в сотрудничестве с исследователями, так это то, что исследователи не могут априори заявить, на какой диапазон воздействий они нацелены: если вмешательство направлено на снижение артериального давления, сколько мм рт. Если лекарство предназначено для лечения рака, сколько месяцев выживет пациент? Тот, кто увлечен исследованиями и «подключен» к своей области и науке, может высказать самые удивительные факты о предыдущих исследованиях и о том, что было сделано.

В вашем примере я не могу не заметить, что значение p 0,82, вероятно, очень близко к нулю. Исходя из этого, все, что я могу сказать, это то, что CI центрирован на нулевом значении. Чего я не знаю, так это того, охватывает ли оно клинически значимые эффекты. Если CI очень узок, интерпретация, которую они дают, на мой взгляд, правильна, но данные не подтверждают это: это будет незначительное редактирование. Напротив, второе значение р 0,22 относительно ближе к порогу его значимости (каким бы оно ни было). Соответственно, авторы интерпретируют его как «не приводящий никаких доказательств различий», что согласуется с интерпретацией типа «не отвергайте Н_0». Что касается актуальности статьи, я могу сказать очень мало. Я надеюсь, что вы просматриваете литературу, находя более заметные обсуждения результатов исследований! Что касается анализа,

Adamo
источник

1

F

$F$

k

$k$

p

$p$

μ = μ_{0}

$\mu=\mu_0$

μ \neq μ_{0}

$\mu \ne \mu_0$

Конечно! (и +1, если это было неясно) Но если серьезно, вы должны подойти к тестированию на эквивалентность: оно появилось в клинической эпидемиологии и биостатистике (почетное наследие для области!), но имеет общее значение для частых выводов. :)

Алексис

1

@GermanDemidov Я придерживаюсь жесткой позиции по этим вопросам: я думаю, что сложные анализы не должны рассматриваться, если их последствия не могут быть интерпретированы. Они делают имеют интерпретацию. Анализ выживания 2-е изд. Хосмера, Лемешоу, май, имеет целую главу (4), посвященную интерпретации результатов модели Кокса. Недостаток тестов, таких как Шапиро, лучше всего решать с помощью графиков (это часто исключает сам тест). Статистика передискретизации предоставляет мощные средства для расчета КИ в самых разных условиях моделирования, но для их правильного использования требуется теория звука.

AdamO

3

α

$\alpha$

H_{0}

$H_0$

12

$H_{0}$ $H_{0}$ $H_{A}$ $H_{A}$

Тем не менее, мы можем признать, что существуют разные виды нулевой гипотезы:

$H_{0}: \theta \ge \theta_{0}$ $H_{0}: \theta \le \theta_{0}$
$H_{0}: \theta = \theta_{0}$ $H_{0}: \theta - \theta_{0} = 0$ $H_{0}: \theta_{1} = \theta_{2}$ $H_{0}: \theta_{1} - \theta_{2} = 0$ $H^{+}_{0}$ $k$ $H_{0}^{+}: \theta_{i} = \theta_{j};$ $i,j \in \{1, 2, \dots k\};$ $\text{ and }i\ne j$
$H_{0}: |\theta - \theta_{0}|\ge \Delta$ $H_{0}: |\theta_{1} - \theta_{2}|\ge \Delta$ $\Delta$ $H^{-}_{0}$ $\pm\Delta$ $|\Delta|$ $k$ $H_{0}^{-}: |\theta_{i} = \theta_{j}|\ge \Delta;$ $i,j \in \{1, 2, \dots k\};$ $\text{ and }i\ne j$

[tost] $H_{0}^{+}$ $H_{0}^{+}$ Это потому, что нет истинного эффекта, или потому что ваш размер выборки был слишком мал, а ваш тест недостаточно силен? Тесты на релевантность решают эти проблемы в лоб.

Есть несколько способов выполнить тесты на эквивалентность (независимо от того, комбинируется ли или нет с тестами на различие):

Два односторонних теста (TOST) переводят общую отрицательную гипотезу отрицателей, выраженную выше, в две конкретные односторонние нулевые гипотезы:
- $H^{-}_{01}: \theta - \theta_{0} \ge \Delta$ $H^{-}_{01}: \theta_{1} - \theta_{2} \ge \Delta$
- $H^{-}_{02}: \theta - \theta_{0} \le -\Delta$ $H^{-}_{01}: \theta_{1} - \theta_{2} \le -\Delta$
Равномерно наиболее мощные тесты на эквивалентность, которые, как правило, гораздо более арифметически сложны, чем TOST. Wellek является окончательным ориентиром для них.
Подход с доверительными интервалами, я полагаю, сначала мотивирован Шуирманом, а усовершенствован другими, такими как Трион.

Ссылки Reagle, DP и Vinod, HD (2003). Вывод для теории негативизма с использованием численно вычисленных областей отклонения . Вычислительная статистика и анализ данных , 42 (3): 491–512.

Schuirmann, DA (1987). Сравнение процедуры двух односторонних испытаний и силового подхода для оценки эквивалентности средней биодоступности . Журнал фармакокинетики и биофармацевтики , 15 (6): 657–680.

Tryon, WW and Lewis, C. (2008). Метод логического доверительного интервала для установления статистической эквивалентности, который корректирует поправочный коэффициент Tryon (2001) . Психологические методы , 13 (3): 272-277.

Tryon, WW and Lewis, C. (2009). Оценка независимых пропорций для статистической разности, эквивалентности, неопределенности и тривиальной разницы с использованием логически выведенных доверительных интервалов . Журнал образовательной и поведенческой статистики , 34 (2): 171–189.

Wellek, S. (2010). Проверка статистических гипотез эквивалентности и неполноценности . Чепмен и Холл / CRC Press, второе издание.

Alexis
источник

1

Любой, кто проголосовал против меня, должен сделать несколько замечаний о том, почему: должно быть ясно, что я даю подробные ответы и чутко реагирую на комментарии.

Алексис

9

Вы имеете в виду стандартную практику вывода, преподаваемую на курсах по статистике:

форма $H_0,H_a$
установить уровень значимости $\alpha$
сравнить р-значение с $\alpha$
либо отклонить $H_0$ принять $H_a$ "или" не в состоянии отклонить $H_0$ "

Это хорошо, и это используется на практике. Я бы даже рискнул предположить, что эта процедура может быть обязательной в некоторых регулируемых отраслях, таких как фармацевтика.

Однако, это не единственный способ применения статистики и умозаключений в исследованиях и на практике. Например, взгляните на эту статью : «Наблюдение за новой частицей при поиске бозона Хиггса стандартной модели с помощью детектора ATLAS на LHC». В статье впервые были представлены доказательства существования бозона Хиггса в так называемом эксперименте ATLAS. Это была также одна из тех статей, в которой список авторов соответствует его фактическому содержанию :)

В статье не упоминается ни $H_0$ nor $H_a$ . The term "hypothesis" is used, and you could guess what was their $H_0$ reading the text.
They use the term "significance", but not as $\alpha$ -significance threshold in the "standard" inference. They simply express the distance in standard deviations, e.g. "the observed local significances for mH = 125 GeV are 2.7 $\sigma$ "
they present "raw" p-values, and don't run them through "reject/fail to reject" comparisons with significance levels $\alpha$ , as I wrote earlier they don't even use the latter
they present confidence intervals at usual confidence levels such as 95%

Here's how the conclusion is formulated: "These results provide conclusive evidence for the discovery of a new particle with mass 126.0 ± 0.4 (stat) ± 0.4 (sys) GeV." The words "stat" refers to statistical and "sys" to systematic uncertainties.

So, as you see not everyone does the four step procedure that I outlined in the beginning of this answer. Here, the researchers show the p-value without pre-establishing the threshold, contrary to what is taught in statistics classes. Secondly, they don't do "reject/fail to reject" dance, at least formally. They cut to the chase, and say "here's the p-value, and that's why we say we found a new particle with 126 GeV mass."

Important note

The authors of the Higgs paper did not declare the Higgs boson yet. They only asserted that the new particle was found and that some of its properties such as a mass are consistent with Higgs boson.

It took a couple of years to gather additional evidence before it was established that the particle is indeed the Higgs boson. See this blog post with early discussion of results. Physicists went on to check different properties such as zero spin. And while the evidence was gathered at some point CERN declared that the particle is Higgs boson.

Why is this important? Because it is impossible to trivialize the process of scientific discovery to some rigid statistical inference procedure. Statistical inference is just one tool used.

When CERN was looking for this particle the focus was on first finding it. It was the ultimate goal. Physicist had an idea where to look at. Once they found a candidate, they focused on proving it's the one. Eventually, the totality of evidence, not a single experiment with p-value and significance, convinced everyone that we found the particle. Include here all the prior knowledge and the standard model. This is not just a statistical inference, the scientific method is broader than that.

Aksakal
источник

wow, your answer is great! this is a really good example. I hope that in maximum 10 years life scientists will also come to this report style!

German Demidov

5

There are ways to approach this that don't rely on the power calculations (see Wellek, 2010). In particular, you can also test whether you reject the null that the effect is of an a priori meaningful magnitude.

Daniël Lakens advocates in this situation for equivalence testing. Lakens in particular uses "TOST" (two one-sided tests) for mean comparisons, but there are other ways to get at the same idea.

In TOST you test a compound null: the one-sided null hypothesis that your your effect is more negative than the smallest negative difference of interest and the null that your effect is more positive than the smallest positive difference of interest. If you reject both, then you can claim that there is no meaningful difference. Note that this can happen even if the effect is significantly different from zero, but in no case does it require endorsing the null.

Lakens, D. (2017). Equivalence tests: a practical primer for t tests, correlations, and meta-analyses. Social Psychological and Personality Science, 8(4), 355-362.

Wellek, S. (2010). Testing Statistical Hypotheses of Equivalence and Noninferiority. Chapman and Hall/CRC Press, second edition.

Patrick Malone
источник

Принятие нулевой гипотезы

Ответы:

Important note