Почему статистикам препятствовать нам ссылаться на результаты , как « весьма значительным» , когда -значение значительно ниже обычного -уровень ?α 0,05
Действительно ли неправильно доверять результату, который с вероятностью 99,9% не является ошибкой типа I ( ), больше, чем результат, который дает вам только такой шанс при 99% ( )?р = 0,01
Ответы:
Я думаю, что нет ничего плохого в том, чтобы сказать, что результаты «очень значительны» (хотя да, это немного небрежно).
Это означает, что если бы вы установили намного меньший уровень значимости , вы все равно оценили бы результаты как значимые. Или, что эквивалентно, если некоторые из ваших читателей имеют в виду гораздо меньшую , то они все равно могут оценить ваши результаты как значимые.αα α
Обратите внимание, что уровень значимости находится в поле зрения наблюдателя, тогда как значение (с некоторыми оговорками) является свойством данных.рα p
Наблюдение за - это не то же самое, что наблюдение за , хотя оба могут быть названы "значимыми" в соответствии со стандартными соглашениями вашего поля ( ). Крошечное значение означает более сильное доказательство против нуля (для тех, кто любит рамки гипотез Фишера); это означает, что доверительный интервал вокруг размера эффекта исключит нулевое значение с большим запасом (для тех, кто предпочитает КИ-значениям ); это означает, что апостериорная вероятность нуля будет меньше (для байесовских с некоторым предшествующим); все это эквивалентно и просто означает, что результаты более убедительны . См. Являются ли меньшие p-значения более убедительными? р = 0,04 α = 0,05 р рp=10−10 p=0.04 α=0.05 p p для дальнейшего обсуждения.
Термин «очень значительный» не является точным и не должен быть. Это субъективное экспертное суждение, подобное наблюдению за удивительно большим размером эффекта и названию его «огромным» (или, возможно, просто «очень большим»). Нет ничего плохого в использовании качественных, субъективных описаний ваших данных, даже в научной литературе; при условии, конечно, что представлен объективный количественный анализ.
Смотрите также некоторые превосходные комментарии выше, +1 к @whuber, @Glen_b и @COOLSerdash.
источник
Это общий вопрос.
Аналогичный вопрос может быть «Почему р <= 0,05 считается значимым?» ( http://www.jerrydallal.com/LHSP/p05.htm )
@ Майкл-Майер дал одну часть ответа: значимость - только одна часть ответа. При достаточном количестве данных обычно некоторые параметры отображаются как «значимые» (см. Поправку Бонферрони). Множественное тестирование является специфической проблемой в генетике, где широко распространены крупные исследования, ищущие значимость, и часто требуются значения p <10 -8 ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).
Кроме того, одна из проблем многих анализов заключается в том, что они были оппортунистическими и не были заранее спланированы (например, «Если вы пытаете данные достаточно, природа всегда признается». - Рональд Коуз).
Как правило, если анализ предварительно запланирован (с поправкой на повторный анализ для статистической мощности), его можно считать значимым. Часто повторное тестирование несколькими людьми или группами является лучшим способом подтвердить, что что-то работает (или нет). И повторение результатов чаще всего является правильным тестом на значимость.
источник
Тест - это инструмент для черно-белого решения, то есть он пытается ответить на вопрос «да / нет», типа «есть ли эффект истинного лечения?». Часто, особенно если набор данных большой, такой вопрос является пустой тратой ресурсов. Зачем задавать бинарный вопрос, если можно получить ответ на количественный вопрос типа «насколько велик истинный эффект лечения?» что неявно отвечает и на вопрос да / нет? Поэтому вместо того, чтобы с большой уверенностью отвечать на неинформативный вопрос «да / нет», мы часто рекомендуем использовать доверительные интервалы, которые содержат гораздо больше информации.
источник