Основным ограничением проверки значимости нулевой гипотезы является то, что она не позволяет исследователю собирать доказательства в пользу нулевой ( Источник )
Я вижу, что это утверждение повторяется в нескольких местах, но я не могу найти оправдания для этого. Если мы проводим большое исследование , и мы не находим статистически значимые доказательства против нулевой гипотезы , не то, что доказательства для нулевой гипотезы?
hypothesis-testing
Атте Ювонен
источник
источник
Ответы:
Неспособность отвергнуть нулевую гипотезу является доказательством того, что нулевая гипотеза верна, но это не может быть особенно хорошим доказательством и, конечно, не доказывает нулевую гипотезу.
Давайте сделаем небольшой обход. Рассмотрим на секунду старое клише:
Несмотря на свою популярность, это утверждение - ерунда. Если вы ищете что-то и не можете найти это, это является абсолютным доказательством того, что его там нет. Насколько хороши эти доказательства, зависит от того, насколько тщательным был ваш поиск. Беглый поиск предоставляет слабые доказательства; исчерпывающий поиск дает веские доказательства.
Теперь вернемся к проверке гипотез. Когда вы запускаете проверку гипотезы, вы ищете доказательства того, что нулевая гипотеза не соответствует действительности. Если вы не можете найти его, то это, безусловно , свидетельствует о том , что нулевая гипотеза является правдой, но насколько сильна , что доказательства? Чтобы знать это, вы должны знать, насколько вероятно, что свидетельство, которое заставило бы вас отвергнуть нулевую гипотезу, могло ускользнуть от вашего поиска. То есть какова вероятность ложного негатива по вашему тесту? Это связано с мощностью, , теста (в частности, это дополнение, 1- .)ββ β
Теперь сила теста и, следовательно, уровень ложного отрицания, обычно зависят от величины эффекта, который вы ищете. Большие эффекты легче обнаружить, чем маленькие. Таким образом, для эксперимента не существует единой , и, следовательно, нет однозначного ответа на вопрос, насколько сильны доказательства нулевой гипотезы. Другими словами, всегда есть некоторый размер эффекта, достаточно маленький, чтобы это не исключалось экспериментом.β
Отсюда есть два способа продолжить. Иногда вы знаете, что вас не волнует размер эффекта, меньший порога. В этом случае вам, вероятно, следует переосмыслить свой эксперимент так, чтобы нулевая гипотеза заключалась в том, что эффект выше этого порога, а затем проверить альтернативную гипотезу о том, что эффект ниже порога. Кроме того, вы можете использовать свои результаты, чтобы установить границы вероятного размера эффекта. Ваш вывод будет таким: размер эффекта лежит в некотором интервале с некоторой вероятностью. Этот подход является лишь небольшим шагом от байесовского лечения, о котором вы, возможно, захотите узнать больше, если часто сталкиваетесь с подобной ситуацией.
Есть хороший ответ на связанный с этим вопрос, который касается доказательств отсутствия , что может оказаться полезным.
источник
NHST опирается на p-значения, которые говорят нам: если нулевая гипотеза верна, какова вероятность того, что мы наблюдаем наши данные (или более экстремальные данные)?
Мы предполагаем, что нулевая гипотеза верна - в NHST выдумано, что нулевая гипотеза на 100% верна. Небольшие p-значения говорят нам, что, если нулевая гипотеза верна, наши данные (или более экстремальные данные) маловероятны.
Но что говорит нам большое значение p? Это говорит нам о том, что, учитывая нулевую гипотезу, наши данные (или более экстремальные данные) вероятны.
Вообще говоря, P (A | B) ≠ P (B | A).
Представьте, что вы хотите принять большое значение p в качестве доказательства нулевой гипотезы. Вы бы положились на эту логику:
Если значение равно нулю, тогда вероятно высокое значение p.( Обновление: не соответствует действительности. См. Комментарии ниже. )Это принимает более общую форму:
Это ошибочно, как видно из примера:
Земля вполне могла быть влажной, потому что шел дождь. Или это может быть из-за разбрызгивателя, кто-то чистит свои желоба, сломал водопровод и т. Д. Более экстремальные примеры можно найти в ссылке выше.
Это очень сложная концепция для понимания. Если нам нужны доказательства для нуля, то требуется байесовский вывод. Для меня наиболее доступным объяснением этой логики является Rouder et al. (2016). на бумаге Есть ли бесплатный обед в заключении? опубликовано в Topics in Cognitive Science, 8, стр. 520–547.
источник
Чтобы понять, что не так с этим предположением, посмотрите следующий пример:
Представьте себе вольер в зоопарке, где вы не видите его обитателей. Вы хотите проверить гипотезу о том, что в ней обитают обезьяны, положив банан в клетку, и проверьте, пропал ли он на следующий день. Это повторяется N раз для повышения статистической значимости.
Теперь вы можете сформулировать нулевую гипотезу: учитывая, что в вольере есть обезьяны, очень вероятно, что они найдут и съедят банан, поэтому, если бананы не трогают каждый день, очень маловероятно, чтобы внутри были какие-то обезьяны.
Но теперь вы видите, что бананы исчезают (почти) каждый день. Это говорит вам, что обезьяны внутри?
Конечно, нет, потому что есть другие животные, которым тоже нравятся бананы, или, может быть, какой-то внимательный зоопарк убирает банан каждый вечер.
Так какая же ошибка в этой логике? Дело в том, что вы ничего не знаете о вероятности исчезновения бананов, если внутри нет обезьян. Чтобы подтвердить нулевую гипотезу, вероятность исчезновения бананов должна быть небольшой, если нулевая гипотеза ошибочна, но это не обязательно должно иметь место. Фактически, событие может быть одинаково вероятным (или даже более вероятным), если нулевая гипотеза неверна.
Не зная об этой вероятности, вы ничего не можете сказать о справедливости нулевой гипотезы. Если зоопарки убирают все бананы каждый вечер, эксперимент совершенно бесполезен, даже если на первый взгляд кажется, что вы подтвердили нулевую гипотезу.
источник
В своей знаменитой статье « Почему большинство опубликованных результатов исследований являются ложными» , Иоаннидис использовал байесовские рассуждения и ошибку базовой ставки, чтобы доказать, что большинство результатов являются ложноположительными. Вкратце, вероятность того, что конкретная исследовательская гипотеза верна после исследования, зависит, помимо прочего, от вероятности этой гипотезы до исследования (то есть базовой ставки).
В ответ Moonesinghe et al. (2007) использовали ту же структуру, чтобы показать, что репликация значительно увеличивает вероятность того, что гипотеза окажется верной. Это имеет смысл: если множественные исследования могут повторить определенный вывод, мы более уверены, что гипотеза верна.
Я использовал формулы в Moonesinghe et al. (2007), чтобы создать график, который показывает вероятность после исследования в случае невозможности воспроизвести результаты. Предположим, что определенная исследовательская гипотеза имеет вероятность до 50% быть правдоподобной. Кроме того, я предполагаю, что все исследования не имеют смещения (нереально!), Имеют мощность 80% и используют 0,05.α
График показывает, что если по крайней мере 5 из 10 исследований не достигают значимости, наша вероятность после гипотезы, что гипотеза верна, составляет почти 0. Те же отношения существуют для большего количества исследований. Это открытие также имеет интуитивный смысл: неоднократный отказ найти эффект укрепляет нашу уверенность в том, что эффект скорее всего ложный. Это обоснование соответствует принятому ответу @RPL.
В качестве второго сценария, давайте предположим, что исследования имеют мощность только 50% (все остальные равны).
Теперь наша вероятность после исследования уменьшается медленнее, потому что у каждого исследования была только низкая мощность, чтобы найти эффект, если он действительно существовал.
источник
If you have a negative, you found evidence against the null
- Что? Слово «негатив» имеет совершенно противоположное значение. Значительное значение p называется «положительным» результатом; не значимым является «отрицательный».Лучшее объяснение, которое я видел для этого, от кого-то, чье обучение по математике.
источник
Если вам не нравится это следствие проверки гипотезы, но вы не готовы сделать полный переход к байесовским методам, как насчет доверительного интервала?
источник
Возможно, было бы лучше сказать, что отказ от нулевой гипотезы сам по себе не является доказательством нулевой гипотезы. Как только мы рассмотрим полную вероятность данных, которая более явно учитывает объем данных, тогда собранные данные могут обеспечить поддержку параметров, попадающих в нулевую гипотезу.
Однако мы должны также тщательно обдумать наши гипотезы. В частности, неспособность отклонить точечную нулевую гипотезу не очень хорошее доказательство того, что точечная нулевая гипотеза верна. Реально, это накапливает доказательства того, что истинное значение параметра не так уж далеко от рассматриваемого вопроса. Точечные нулевые гипотезы в какой-то степени являются скорее искусственными конструкциями, и чаще всего вы действительно не верите, что они будут абсолютно верными.
Гораздо разумнее говорить о неприятии, поддерживающем нулевую гипотезу, если вы можете существенно изменить нулевую и альтернативную гипотезу, и если при этом вы отвергнете свою новую нулевую гипотезу. Когда вы пытаетесь сделать это с помощью стандартной точечной нулевой гипотезы, вы сразу же видите, что вам никогда не удастся отклонить ее дополнение, потому что тогда ваша инвертированная нулевая гипотеза содержит значения, сколь угодно близкие к рассматриваемой точке.
источник
Это скорее зависит от того, как вы используете язык. В соответствии с теорией принятия решений Пирсона и Неймана, это не доказательство нулевого, но вы должны вести себя так, как будто нулевое истинно.
Сложность исходит от модус толленс. Байесовские методы являются формой индуктивного мышления и, как таковые, являются формой неполного мышления. Методы нулевой гипотезы являются вероятностной формой modus tollens и, как таковые, являются частью дедуктивного мышления и, следовательно, являются полной формой рассуждения.
«Модус толленс» имеет вид «если A истинно, то B истинно, а B неверно; следовательно, А неверно». В этой форме было бы, если значение NULL равно true, тогда данные будут отображаться определенным образом, они не будут отображаться таким образом, поэтому (с некоторой степенью достоверности) значение NULL не является истинным (или, по крайней мере, «фальсифицировано»). «.
Проблема в том, что вы хотите «Если A, то B и B.» Из этого вы хотите сделать вывод A, но это недействительно. «Если A, то B», не исключает, «если не A, то B» также является допустимым утверждением. Рассмотрим утверждение «если это медведь, то он может плавать. Это рыба (а не медведь)». Заявления ничего не говорят о способности не-медведей плавать.
Вероятность и статистика являются разделом риторики, а не разделом математики. Это тяжелый пользователь математики, но не является частью математики. Он существует по разным причинам, убеждениям, принятию решений или выводам. Это расширяет риторику в дисциплинированную дискуссию о доказательствах.
источник
Я постараюсь проиллюстрировать это на примере.
источник
источник
Давайте следовать простому примеру.
Моя нулевая гипотеза состоит в том, что мои данные соответствуют нормальному распределению. Альтернативная гипотеза состоит в том, что распределение моих данных не является нормальным.
Я рисую две случайные выборки из равномерного распределения на [0,1]. Я не могу многое сделать только с двумя образцами, поэтому я не смог бы отказаться от своей нулевой гипотезы.
Означает ли это, что я могу сделать вывод, что мои данные соответствуют нормальному распределению? Нет, это равномерное распределение!
Проблема в том, что я сделал предположение нормальности в своей нулевой гипотезе. Таким образом, я не могу сделать вывод, что мое предположение верно, потому что я не могу отвергнуть его.
источник
источник
Нет, это не доказательство, если у вас нет доказательств того, что это доказательство. Я не пытаюсь быть милым, скорее буквальным. У вас есть только вероятность увидеть такие данные, если предположить, что значение NULL истинно. Это ВСЕ, что вы получаете из p-значения (если таковое, поскольку p-значение основано на самих предположениях).
Можете ли вы представить исследование, которое показывает, что для исследований, которые «не в состоянии» поддержать нулевую гипотезу, большинство нулевых гипотез оказываются верными? Если вы можете найти ЭТО исследование, то ваша неспособность опровергнуть нулевые гипотезы, по крайней мере, отражает ОЧЕНЬ обобщенную вероятность того, что нулевое значение истинно. Могу поспорить, у вас нет этого исследования. Поскольку у вас нет доказательств того, что нулевые гипотезы являются истинными на основе p-значений, вам просто нужно уйти с пустыми руками.
Вы начали с предположения, что ваш ноль был истинным, чтобы получить это p-значение, поэтому p-значение ничего не может сказать о нуле, только о данных. Подумай об этом. Это однонаправленный вывод - период.
источник