Грубо говоря, значение p дает вероятность наблюдаемого исхода эксперимента с учетом гипотезы (модели). Имея эту вероятность (p-значение), мы хотим оценить нашу гипотезу (насколько она вероятна). Но не будет ли более естественным рассчитать вероятность гипотезы с учетом наблюдаемого исхода?
Более подробно. У нас есть монета. Мы переворачиваем это 20 раз и получаем 14 голов (14 из 20 - это то, что я называю «результатом эксперимента»). Теперь наша гипотеза состоит в том, что монета справедлива (вероятности головы и хвоста равны друг другу). Теперь мы рассчитываем значение p, которое равно вероятности получить 14 или более голов за 20 бросков монеты. Хорошо, теперь у нас есть эта вероятность (0,058), и мы хотим использовать эту вероятность для оценки нашей модели (какова вероятность того, что у нас есть справедливая монета).
Но если мы хотим оценить вероятность модели, почему бы нам не рассчитать вероятность модели с учетом эксперимента? Почему мы рассчитываем вероятность эксперимента с учетом модели (значение p)?
источник
Ответы:
Вычисление вероятности того, что гипотеза верна, не вписывается в частое определение вероятности (долгосрочная частота), которое было принято, чтобы избежать предполагаемой субъективности байесовского определения вероятности. Истина конкретной гипотезы не является случайной величиной, она либо истинна, либо нет и не имеет долгосрочной частоты. Действительно, более естественно интересоваться вероятностью истинности гипотезы, и это ИМХО, почему p-значения часто неверно истолковывают как вероятность того, что нулевая гипотеза верна. Отчасти трудность заключается в том, что из правила Байеса мы знаем, что для вычисления апостериорной вероятности того, что гипотеза верна, нужно начинать с предварительной вероятности, что гипотеза верна.
Байесовский бы вычислить вероятность того, что гипотеза верна, учитывая данные (и его / ее до веры).
В сущности, при выборе между частотным и байесовским подходами выбор заключается в том, является ли предполагаемая субъективность байесовского подхода более отвратительной, чем тот факт, что частотный подход, как правило, не дает прямого ответа на вопрос, который вы на самом деле хотите задать, - но есть место для и то и другое.
В случае вопроса о том, является ли монета справедливой, то есть вероятность головы равна вероятности хвоста, у нас также есть пример гипотезы, которая, как мы знаем, в реальном мире почти наверняка неверна с самого начала. Две стороны медали несимметричны, поэтому следует ожидать небольшой асимметрии вероятностей голов и хвостов, поэтому, если монета «проходит» тест, это просто означает, что у нас недостаточно наблюдений, чтобы мы могли заключите, что мы уже знаем, чтобы быть правдой - что монета очень слабо смещена!
источник
Ничего подобного, чтобы ответить на действительно старый вопрос, но здесь идет ....
Значения р являются почти действительными проверками гипотез. Это слегка адаптированный отрывок из книги теории вероятностей Джейнса 2003 года (Повторяющиеся эксперименты: вероятность и частота). Предположим, что у нас есть нулевая гипотеза которую мы хотим проверить. У нас есть данные D и априорной информации I . Предположим, что существует некоторая неопределенная гипотеза H A, с которой мы будем проверять H 0 . Отношение шансов сзади для H A против H 0 тогда определяется как:H0 D I HA H0 HA H0
Теперь первый член в правой части не зависит от данных, поэтому данные могут влиять на результат только через второй член. Теперь мы всегда можем придумать альтернативную гипотезу такую, что P ( D | H A I ) = 1 - гипотеза «идеального соответствия». Таким образом, мы можем использовать 1HA P(D|HAI)=1 как мера того, насколько хорошо данные могут поддержать любую альтернативную гипотезу над нулем. Нет альтернативной гипотезы о том, что данные могут поддерживать болееH0более чем на11P(D|H0I) H0 . Мы также можем ограничить класс альтернатив, и изменение состоит в том, что1заменяется максимальным правдоподобием (включая нормализующие константы) внутри этого класса. ЕслиP(D|H0I)начинает становиться слишком малым, то мы начинаем сомневаться в нуле, потому что число альтернатив междуH0иHAрастет (включая некоторые с незначительными априорными вероятностями). Но это очень близко к тому, что делается с p-значениями, но с одним исключением: мы не вычисляем вероятность дляt(1P(D|H0I) 1 P(D|H0I) H0 HA для некоторой статистики t ( D ) и некоторой «плохой» области статистики. Мы рассчитываем вероятность для D - фактически имеющейся у нас информации, а не некоторого ее подмножества t ( D ) .t(D)>t0 t(D) D t(D)
Другая причина, по которой люди используют p-значения, заключается в том, что они часто составляют «правильный» тест гипотезы, но их легче вычислить. Мы можем показать это на очень простом примере проверки нормального среднего с известной дисперсией. У нас есть данные с предполагаемой моделью x i ∼ N o r m a l ( μ , σ 2 ) (часть предшествующей информации I ). Мы хотим проверить H 0 : μ = μ 0D≡{x1,…,xN} xi∼Normal(μ,σ2) I H0:μ=μ0 , Тогда мы имеем, после небольшого расчета:
Где иs2=1x¯¯¯=1N∑Ni=1xi . Это показываетчто максимальное значениеP(D|H0I)будет достигнутокогдаμ0= ¯ х . Максимальное значение:s2=1N∑Ni=1(xi−x¯¯¯)2 P(D|H0I) μ0=x¯¯¯
Итак, мы берем соотношение этих двух, и получаем:
Где - это «Z-статистика». Большие значения| z| ставить под сомнение нулевую гипотезу относительно гипотезы о нормальном среднем значении, которое наиболее сильно подтверждается данными. Мы также можем видетьчто ¯ х является только частью данныхкоторые необходимы, итаким образомявляется достаточной статистикой для испытания.z=N−−√x¯¯¯−μ0σ |z| x¯¯¯
Подход p-значения к этой проблеме почти такой же, но наоборот. Начнем с достаточной статистики , и мы caluclate его распределение выборки, которая легко показать, ¯ X ~ N о г т л ( μ , сг 2x¯¯¯ -где я использовал заглавную буквучтобы отличить случайную величину¯Xот наблюдаемого значения¯х. Теперь нам нужно найти регион, который ставит под сомнение нулевую гипотезу: легко увидеть, что это те регионы, где| ¯X-μ0| большой. Таким образом, мы можем рассчитать вероятность того, что| ¯X-μ0| ≥| ¯х-μ0| как мера того, насколько далеко наблюдаемые данные от нулевой гипотезы. Как и раньше, это простой расчет, и мы получаем:X¯¯¯¯∼Normal(μ,σ2N) X¯¯¯¯ x¯¯¯ |X¯¯¯¯−μ0| |X¯¯¯¯−μ0|≥|x¯¯¯−μ0|
Хотя в этом примере это обе простые вещи, в более сложных случаях это не всегда так просто. В некоторых случаях может быть проще выбрать правильную статистику для использования и рассчитать распределение выборки. В других может быть легче определить класс альтернатив и максимизировать этот класс.
Этот простой пример учитывает большое количество тестирования на основе p-значений просто потому, что многие тесты на гипотезы относятся к «приблизительной нормальной» разновидности. Он также дает приблизительный ответ на вашу проблему с монетами (используя нормальное приближение к биному). Это также показывает, что значения p в этом случае не приведут вас в заблуждение, по крайней мере, с точки зрения проверки одной гипотезы. В этом случае мы можем сказать, что значение p является показателем против нулевой гипотезы.
источник
Как бывший академик, который начал практиковать, я сделаю снимок. Люди используют р-значения, потому что они полезны. Вы не можете видеть это в учебниках примеров бросков монеты. Конечно, они не очень прочны в фундаментальном плане, но, возможно, это не так необходимо, как нам хотелось бы думать, когда мы думаем академически. В мире данных мы окружены буквально бесконечным множеством возможных вещей, на которые можно заглядывать дальше. С вычислениями p-значений все, что вам нужно, как представление о том, что неинтересно, и числовая эвристика для того, какие данные могут быть интересны (ну, плюс модель вероятности для неинтересности). Затем по отдельности или вместе мы можем сканировать вещи довольно просто, отбрасывая большую часть неинтересных. Значение р позволяет нам сказать: «Если я не придаю большого значения тому, чтобы думать об этом иначе,
источник
Ваш вопрос является отличным примером частых рассуждений и, на самом деле, вполне естественно. Я использовал этот пример на своих уроках, чтобы продемонстрировать природу проверки гипотез. Я прошу добровольца, чтобы предсказать результаты броска монеты. Независимо от результата, я записываю «правильное» предположение. Мы делаем это неоднократно, пока класс не станет подозрительным.
Теперь у них в голове нулевая модель. Они предполагают, что монета справедлива. Учитывая, что предположение о 50% правильности, когда все справедливо, каждое последующее правильное предположение вызывает больше подозрений, что модель честной монеты неверна. Несколько правильных догадок и они принимают роль случайности. После 5 или 10 правильных предположений класс всегда начинает подозревать, что шанс на честную монету низок. Таким образом, это с характером проверки гипотезы по модели частых.
Это четкое и интуитивное представление о том, как часто участники проверяют гипотезы. Это вероятность наблюдаемых данных, учитывая, что нулевое значение истинно. Это на самом деле вполне естественно, как показывает этот легкий эксперимент. Мы считаем само собой разумеющимся, что модель 50 на 50, но, как показывает свидетельство, я отвергаю эту модель и подозреваю, что в игре есть что-то еще.
Таким образом, если вероятность того, что я наблюдаю, является низкой, учитывая модель, которую я принимаю (значение p), тогда у меня есть некоторая уверенность в том, чтобы отвергнуть мою предполагаемую модель. Таким образом, p-значение является полезным показателем против моей предполагаемой модели с учетом роли случайности.
Отказ от ответственности: я взял это упражнение из давно забытой статьи, как я помню, в одном из журналов ASA.
источник
«Грубо говоря, р-значение дает вероятность наблюдаемого исхода эксперимента с учетом гипотезы (модели)».
но это не так. Даже грубо - это выдумывает существенное различие.
Модель не указана, как указывает Раскольников, но давайте предположим, что вы имеете в виду биномиальную модель (независимые броски монет, фиксированное неизвестное смещение монет). Гипотеза заключается в утверждении, что соответствующий параметр в этой модели, смещение или вероятность головок, составляет 0,5.
«Имея эту вероятность (p-значение), мы хотим оценить нашу гипотезу (насколько она вероятна)»
Мы действительно можем захотеть сделать такое суждение, но p-значение не поможет (и не было предназначено для этого) помочь нам в этом.
«Но не будет ли более естественным рассчитать вероятность гипотезы с учетом наблюдаемого исхода?»
Возможно, так и будет. Смотрите все обсуждения Байеса выше.
«[...] Теперь мы вычисляем p-значение, которое равно вероятности получить 14 или более голов за 20 бросков монеты. Хорошо, теперь у нас есть эта вероятность (0,058), и мы хотим использовать эту вероятность для судите нашу модель (какова вероятность, что у нас есть честная монета). "
«нашей гипотезы, предполагая, что наша модель верна», но по сути: да. Большие значения р указывают на то, что поведение монеты согласуется с гипотезой, что это справедливо. (Они также, как правило, согласуются с гипотезой ложности, но настолько близки к истине, что у нас нет достаточно данных, чтобы сказать; см. «Статистическая сила».)
«Но если мы хотим оценить вероятность модели, почему мы не рассчитываем вероятность модели с учетом эксперимента? Почему мы рассчитываем вероятность эксперимента с учетом модели (значение p)?»
На самом деле мы не рассчитываем вероятность экспериментальных результатов, учитывая гипотезу в этой установке. В конце концов, вероятность того, что эта гипотеза верна, составляет всего около 0,176, и мы видим ровно 10 голов, и это наиболее вероятное значение. Это не количество интереса вообще.
Также важно, что мы обычно не оцениваем вероятность модели. Как частые, так и байесовские ответы обычно предполагают, что модель верна, и делают выводы о ее параметрах. Действительно, не все Bayesians бы даже в принципе быть заинтересованы в вероятности модели, то есть: вероятность того, что вся эта ситуация была хорошо моделируется биномиального распределения. Они могут делать много проверок моделей, но никогда не спрашивают, насколько вероятен бином в пространстве других возможных моделей. Байесовцы, которым небезразличны Байесовские факторы, заинтересованы, другие не так сильно.
источник
Примечание к другим превосходным ответам: иногда бывают случаи, когда мы этого не делаем. Например, до недавнего времени они были полностью запрещены в журнале « Эпидемиология» - теперь их просто «сильно обескураживают», и редакционная коллегия уделяет огромное количество места их обсуждению здесь: http: //journals.lww. ком / Epidem / страницы / collectiondetails.aspx? TopicalCollectionId = 4
источник
источник
Определите вероятность . Я серьезно. Прежде чем мы продвинемся дальше, нам нужно договориться об условиях.
В практическом мире проблемы с, скажем, медицинскими условиями и тем, как они работают, вы, возможно, не сможете придумать ни одного из этих компонентов совместного распределения, и не можете подготовить.
Помимо трудностей в разговоре о том, что именно являются правильными моделями, байесовские методы имеют ограниченные способы борьбы с ошибочной спецификацией моделей. Если вам не нравятся ошибки Гаусса или вы не верите в независимость бросков монет (ваша рука устает после первых 10000 бросков, поэтому вы не бросаете ее так же высоко, как первые 1000 раз, что может повлиять на вероятности), все, что вы можете сделать в байесовском мире, - это построить более сложную модель - пробитие априорных проб для нормальных смесей, сплайны вероятностей во времени, что угодно. Но не существует прямого аналога стандартным ошибкам Хубер-сэндвича, которые явно признают, что модель может быть неверно определена, и готовы учесть это.
источник
Потому что мы не знаем как. Возможно бесконечное количество моделей, и их вероятностное пространство не определено.
Вот практический пример. Допустим, я хочу прогнозировать ВВП США. Я получаю временные ряды и подгоняю модель. Какова вероятность того, что эта модель верна?
источник