Это дискуссионный вопрос о пересечении статистики и других наук. Я часто сталкиваюсь с одной и той же проблемой: исследователи в моей области, как правило, говорят, что нет никакого эффекта, когда значение p не меньше уровня значимости. В начале я часто отвечал, что это не то, как работает проверка гипотез. Учитывая, как часто возникает этот вопрос, я хотел бы обсудить этот вопрос с более опытными статистиками.
Давайте рассмотрим недавнюю статью в научном журнале «Лучшая издательская группа» Nature Communications Biology (есть несколько примеров, но давайте сосредоточимся на одном)
Исследователи интерпретируют не статистически значимый результат следующим образом:
Таким образом, хроническое умеренное ограничение калорий может продлить продолжительность жизни и улучшить здоровье приматов, но это влияет на целостность серого вещества мозга, не влияя на когнитивные функции .
Доказательство:
Однако показатели в задании лабиринта Барнса не отличались между контрольными животными и животными с ограниченной калорийностью (LME: F = 0,05, p = 0,82; рис. 2a). Аналогичным образом, задача самопроизвольного чередования не выявила никакой разницы между контрольными животными и животными с ограниченной калорийностью (LME: F = 1,63, p = 0,22; рис. 2b).
Авторы также предлагают объяснение отсутствия эффекта - но ключевым моментом является не объяснение, а само утверждение. Приведенные графики выглядят для меня значительно «на глаз» (рисунок 2).
Более того, авторы игнорируют предшествующие знания:
вредные эффекты ограничения калорий на когнитивные функции были зарегистрированы для крыс и церебральных и эмоциональных функций у людей
Я могу понять то же утверждение для огромных размеров выборки (без эффекта = практически без существенного эффекта), но в конкретной ситуации использовались сложные тесты, и для меня не очевидно, как выполнять вычисления мощности.
Вопросов:
Я пропустил какие-либо детали, которые делают их выводы обоснованными?
Принимая во внимание необходимость сообщать о отрицательных результатах в науке, как доказать, что это не «отсутствие результата» (что мы имеем с ), а «отрицательный результат (например, нет разницы между группами)» используя статистику? Я понимаю, что для огромных размеров выборки даже небольшие отклонения от нуля вызывают отклонение, но давайте предположим, что у нас есть идеальные данные, и нам все еще нужно доказать, что нулевое значение является практически истинным.
Должны ли статистики всегда настаивать на математически правильных выводах, таких как «имея эту власть, мы не смогли обнаружить эффект значительного размера»? Исследователи из других областей сильно не любят такие формулировки отрицательных результатов.
Я был бы рад услышать любые мысли о проблеме, и я прочитал и понял связанные вопросы на этом веб-сайте. Существует четкий ответ на вопросы 2) -3) с точки зрения статистики, но я хотел бы понять, как следует отвечать на эти вопросы в случае междисциплинарного диалога.
UPD: я думаю, что хорошим примером отрицательного результата является 1-й этап медицинских испытаний, безопасность. Когда ученые смогут решить, что препарат безопасен? Я предполагаю, что они сравнивают две группы и делают статистику по этим данным. Есть ли способ сказать, что этот препарат безопасен? Кокрейн использует точное «никаких побочных эффектов не обнаружено», но врачи говорят, что этот препарат безопасен. Когда соблюдается баланс между точностью и простотой описания, и мы можем сказать, что «нет никаких последствий для здоровья»?
источник
Ответы:
Я думаю, что иногда целесообразно интерпретировать нестатистически значимые результаты в духе «принять нулевую гипотезу». На самом деле, я видел статистически значимые исследования, интерпретируемые таким образом; исследование было слишком точным, и результаты соответствовали узкому диапазону ненулевых, но клинически незначимых эффектов. Вот несколько резкая критика исследования (или, более того, его прессы) о связи между потреблением шоколада / красного вина и его «целительным» воздействием на диабет. Кривые вероятности распределения инсулинорезистентности при высоком / низком потреблении истеричны.
Можно ли интерпретировать результаты как «подтверждающие H_0», зависит от множества факторов: достоверности исследования, мощности, неопределенности оценки и предыдущих доказательств. Отчет о доверительном интервале (CI) вместо значения p является, пожалуй, самым полезным вкладом, который вы можете внести как статистик. Я напоминаю исследователям и коллегам-статистикам, что статистика не принимает решения, люди принимают; Пропуск р-значений фактически способствует более вдумчивому обсуждению результатов.
Ширина CI описывает диапазон эффектов, которые могут включать или не включать ноль, и могут включать или не включать очень клинически значимые значения, такие как потенциал спасения жизни. Тем не менее, узкий CI подтверждает один тип эффекта; или последний тип, который является «значимым» в истинном смысле, или первый, который может быть нулевым, или что-то очень близкое к нулевому.
Возможно, необходимо более широкое понимание того, что такое «нулевые результаты» (и нулевые эффекты). Что меня разочаровывает в сотрудничестве с исследователями, так это то, что исследователи не могут априори заявить, на какой диапазон воздействий они нацелены: если вмешательство направлено на снижение артериального давления, сколько мм рт. Если лекарство предназначено для лечения рака, сколько месяцев выживет пациент? Тот, кто увлечен исследованиями и «подключен» к своей области и науке, может высказать самые удивительные факты о предыдущих исследованиях и о том, что было сделано.
В вашем примере я не могу не заметить, что значение p 0,82, вероятно, очень близко к нулю. Исходя из этого, все, что я могу сказать, это то, что CI центрирован на нулевом значении. Чего я не знаю, так это того, охватывает ли оно клинически значимые эффекты. Если CI очень узок, интерпретация, которую они дают, на мой взгляд, правильна, но данные не подтверждают это: это будет незначительное редактирование. Напротив, второе значение р 0,22 относительно ближе к порогу его значимости (каким бы оно ни было). Соответственно, авторы интерпретируют его как «не приводящий никаких доказательств различий», что согласуется с интерпретацией типа «не отвергайте Н_0». Что касается актуальности статьи, я могу сказать очень мало. Я надеюсь, что вы просматриваете литературу, находя более заметные обсуждения результатов исследований! Что касается анализа,
источник
Тем не менее, мы можем признать, что существуют разные виды нулевой гипотезы:
[tost]
Есть несколько способов выполнить тесты на эквивалентность (независимо от того, комбинируется ли или нет с тестами на различие):
Ссылки Reagle, DP и Vinod, HD (2003). Вывод для теории негативизма с использованием численно вычисленных областей отклонения . Вычислительная статистика и анализ данных , 42 (3): 491–512.
Schuirmann, DA (1987). Сравнение процедуры двух односторонних испытаний и силового подхода для оценки эквивалентности средней биодоступности . Журнал фармакокинетики и биофармацевтики , 15 (6): 657–680.
Tryon, WW and Lewis, C. (2008). Метод логического доверительного интервала для установления статистической эквивалентности, который корректирует поправочный коэффициент Tryon (2001) . Психологические методы , 13 (3): 272-277.
Tryon, WW and Lewis, C. (2009). Оценка независимых пропорций для статистической разности, эквивалентности, неопределенности и тривиальной разницы с использованием логически выведенных доверительных интервалов . Журнал образовательной и поведенческой статистики , 34 (2): 171–189.
Wellek, S. (2010). Проверка статистических гипотез эквивалентности и неполноценности . Чепмен и Холл / CRC Press, второе издание.
источник
Вы имеете в виду стандартную практику вывода, преподаваемую на курсах по статистике:
Это хорошо, и это используется на практике. Я бы даже рискнул предположить, что эта процедура может быть обязательной в некоторых регулируемых отраслях, таких как фармацевтика.
Однако, это не единственный способ применения статистики и умозаключений в исследованиях и на практике. Например, взгляните на эту статью : «Наблюдение за новой частицей при поиске бозона Хиггса стандартной модели с помощью детектора ATLAS на LHC». В статье впервые были представлены доказательства существования бозона Хиггса в так называемом эксперименте ATLAS. Это была также одна из тех статей, в которой список авторов соответствует его фактическому содержанию :)
Here's how the conclusion is formulated: "These results provide conclusive evidence for the discovery of a new particle with mass 126.0 ± 0.4 (stat) ± 0.4 (sys) GeV." The words "stat" refers to statistical and "sys" to systematic uncertainties.
So, as you see not everyone does the four step procedure that I outlined in the beginning of this answer. Here, the researchers show the p-value without pre-establishing the threshold, contrary to what is taught in statistics classes. Secondly, they don't do "reject/fail to reject" dance, at least formally. They cut to the chase, and say "here's the p-value, and that's why we say we found a new particle with 126 GeV mass."
Important note
The authors of the Higgs paper did not declare the Higgs boson yet. They only asserted that the new particle was found and that some of its properties such as a mass are consistent with Higgs boson.
It took a couple of years to gather additional evidence before it was established that the particle is indeed the Higgs boson. See this blog post with early discussion of results. Physicists went on to check different properties such as zero spin. And while the evidence was gathered at some point CERN declared that the particle is Higgs boson.
Why is this important? Because it is impossible to trivialize the process of scientific discovery to some rigid statistical inference procedure. Statistical inference is just one tool used.
When CERN was looking for this particle the focus was on first finding it. It was the ultimate goal. Physicist had an idea where to look at. Once they found a candidate, they focused on proving it's the one. Eventually, the totality of evidence, not a single experiment with p-value and significance, convinced everyone that we found the particle. Include here all the prior knowledge and the standard model. This is not just a statistical inference, the scientific method is broader than that.
источник
There are ways to approach this that don't rely on the power calculations (see Wellek, 2010). In particular, you can also test whether you reject the null that the effect is of an a priori meaningful magnitude.
Daniël Lakens advocates in this situation for equivalence testing. Lakens in particular uses "TOST" (two one-sided tests) for mean comparisons, but there are other ways to get at the same idea.
In TOST you test a compound null: the one-sided null hypothesis that your your effect is more negative than the smallest negative difference of interest and the null that your effect is more positive than the smallest positive difference of interest. If you reject both, then you can claim that there is no meaningful difference. Note that this can happen even if the effect is significantly different from zero, but in no case does it require endorsing the null.
Lakens, D. (2017). Equivalence tests: a practical primer for t tests, correlations, and meta-analyses. Social Psychological and Personality Science, 8(4), 355-362.
Wellek, S. (2010). Testing Statistical Hypotheses of Equivalence and Noninferiority. Chapman and Hall/CRC Press, second edition.
источник