Использование p-значения для вычисления вероятности того, что гипотеза верна; что еще нужно?

9

Вопрос:

Одно из распространенных заблуждений относительно р-значений заключается в том, что они представляют вероятность того, что нулевая гипотеза верна. Я знаю, что это не правильно, и я знаю, что p-значения представляют только вероятность найти образец столь же экстремальный, как этот, учитывая, что нулевая гипотеза верна. Однако, интуитивно, нужно уметь вывести первое из последнего. Должна быть причина, почему никто не делает это. Какую информацию мы упускаем, которая ограничивает нас от получения вероятности того, что гипотеза верна из p-значения и связанных данных?

Пример:

Наша гипотеза «Витамин D влияет на настроение» (нулевая гипотеза «не влияет»). Допустим, мы проводим соответствующее статистическое исследование с 1000 человек и находим корреляцию между настроением и уровнем витаминов. При прочих равных условиях значение р 0,01 указывает на более высокую вероятность истинной гипотезы, чем значение р 0,05. Допустим, мы получаем значение р 0,05. Почему мы не можем рассчитать фактическую вероятность того, что наша гипотеза верна? Какую информацию нам не хватает?

Альтернативная терминология для частых статистиков:

Если вы принимаете предпосылку моего вопроса, вы можете перестать читать здесь. Следующее предназначено для людей, которые отказываются признать, что гипотеза может иметь вероятностную интерпретацию. Давайте забудем терминологию на мгновение. Вместо...

Допустим, вы делаете ставку со своим другом. Ваш друг показывает вам тысячи статистических исследований по не связанным предметам. Для каждого исследования вам разрешается просматривать только значение p, размер выборки и стандартное отклонение выборки. Для каждого исследования ваш друг предлагает вам несколько шансов сделать ставку на то, что гипотеза, представленная в исследовании, верна. Вы можете либо принять ставку, либо не принимать ее. После того, как вы сделали ставки на все 1000 занятий, на вас взошел оракул и сказал, какая гипотеза верна. Эта информация позволяет вам урегулировать ставки. Я утверждаю, что существует оптимальная стратегия для этой игры, В моем мировоззрении это эквивалентно знанию вероятности того, что гипотеза верна, но если мы не согласны с этим, это нормально. В этом случае мы можем просто говорить о способах использования p-значений, чтобы максимизировать ожидание ставок.

hypothesis-testing bayesian p-value frequentist Атте Ювонен
источник

См., Например: math.tut.fi/~piche/bayes/notes06.pdf

klumbard

13

«Какую информацию нам не хватает» - априорная вероятность того, что H0 верна. Это просто теорема Байеса; для того, чтобы вычислить апостериор, вам нужно иметь априор.

амеба

1

@ AdamO Я не понимаю, как это следует из правила Кромвеля, которое касается предыдущего, а не заднего. Я думаю, что вы можете путать «правду» с «определенным знанием». Если бы мы были заинтересованы в определенных знаниях, мы бы использовали логику, а не вероятностные рассуждения.

Дикран Marsupial

1

@AdamO Я не следую. ОП спросил: «Какую информацию мы упускаем, которая ограничивает нас от вероятности того, что гипотеза верна из р-значения и связанных данных?» Что общего между вероятностью 1 и знанием истины?

амеба

1

В ответ на ваш предыдущий комментарий @Atte: хорошо, если кто-то хочет принять априорное значение 0,5, тогда хорошо, но я не понимаю, почему это всегда должно быть осмысленным предположением. В любом случае, это предположение.

амеба

5

Другие ответы получаются философскими, но я не понимаю, зачем это здесь нужно. Давайте рассмотрим ваш пример:

Наша гипотеза «Витамин D влияет на настроение» (нулевая гипотеза «не влияет»). Допустим, мы проводим соответствующее статистическое исследование с 1000 человек и находим корреляцию между настроением и уровнем витаминов. При прочих равных условиях значение р 0,01 указывает на более высокую вероятность истинной гипотезы, чем значение р 0,05. Допустим, мы получаем значение р 0,05. Почему мы не можем рассчитать фактическую вероятность того, что наша гипотеза верна? Какую информацию нам не хватает?

Для получение соответствует выборочному коэффициенту корреляции . Нулевая гипотеза . Альтернативная гипотеза . $n=1000$ $p=0.05$ $\hat \rho=0.062$ $H_0: \rho=0$ $H_1: \rho\ne 0$

Значение p равно и мы можем вычислить его на основе выборки распределение под нулевым значением; больше ничего не нужно.

п -ценность знак равно п (| \hat{ρ} | \geq 0,062 | ρ знак равно 0),

$p\text{-value} = P\big(|\hat\rho|\ge 0.062 \;\big|\; \rho=0\big),$

\hat{ρ}

$\hat\rho$

Вы хотите вычислить

п ({ЧАС}_{0} | данные) знак равно п (ρ знак равно 0 | \hat{ρ} знак равно 0,062),

$P(H_0\;|\;\text{data})=P\big(\rho=0\;\big|\; \hat\rho= 0.062\big),$

и для этого вам понадобится целая куча дополнительных ингредиентов. Действительно, применяя теорему Байеса, мы можем переписать ее следующим образом:

\frac{п (\hat{ρ} знак равно 0,062 | ρ знак равно 0) \cdot п (ρ знак равно 0)}{п (\hat{ρ} знак равно 0,062 | ρ знак равно 0) \cdot п (ρ знак равно 0) + п (\hat{ρ} знак равно 0,062 | ρ \neq 0) \cdot (1 - п (ρ знак равно 0))},

$\frac{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) \cdot P(\rho=0)}{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) \cdot P(\rho=0)+P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big) \cdot (1-P(\rho=0))}.$

Таким образом, чтобы вычислить апостериорную вероятность нуля, вам нужно иметь две дополнительные вещи:

До этого нулевая гипотеза верна: . $P(\rho=0)$
Предположение о том, как распределяется, если альтернативная гипотеза верна. Это необходимо для вычисления термина . $\rho$ $P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big)$

Если вы готовы предположить, что - даже если я лично не уверен, почему это должно быть осмысленным предположением, - вам все равно придется предполагать распределение соответствии с альтернатива. В этом случае вы сможете вычислить нечто, называемое фактором Байеса : $P(\rho=0)=0.5$ $\rho$

B = \frac{P (\hat{ρ} = 0.062 | ρ = 0)}{P (\hat{ρ} = 0.062 | ρ \neq 0)} .

$B=\frac{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) }{P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big)}.$

Как вы видите, байесовский фактор никак не зависит от уровня вероятности нуля, но это зависит от уровня вероятности (при альтернативе). $\rho$

[Обратите внимание, что знаменатель в байесовском факторе не является p-значением из-за равенства вместо знака неравенства. Таким образом , при вычислении коэффициента Байеса или мы не используем р-значение сам вообще. Но мы, конечно, используем выборочное распределение .] $P(H_0)$ $P(\hat\rho\;|\;\rho=0)$

амеба
источник

Вопрос в том, что «вероятность того, что истинно», считаете ли вы, что байесовцы вычисляют это? Или они вычисляют «достоверность» как истинного? Т.е. вычисляют ли они степень своей веры в то, что истинно? (учитывая данные, которые они наблюдают) или они вычисляют вероятность того, что истинно?

H_{0}

$H_0$

H_{0}

$H_0$

H_{0}

$H_0$

H_{0}

$H_0$

2

Я не понимаю различия, которое вы проводите @fcop. В байесовском мировоззрении вероятность - это степень веры ( например, см. Здесь ).

амеба

Тогда почему они называют это «авторитетом»?

1

Извините @fcop, я не хочу иметь философскую или семантическую дискуссию здесь. ОП спрашивает, что нужно для вычисления и я отвечал на этот конкретный вопрос с математической точки зрения.

P (H_{0})

$P(H_0)$

амеба

@fcop см. также stats.stackexchange.com/questions/173056/…

Тим

7

Quid Est Veritas?

Я могу принять ответ @ amoeba так же легко, как и оригинальный постер. Однако я предупреждаю, что во всей моей работе я не сталкивался с байесовским анализом, который вычислял «вероятность того, что нулевая гипотеза верна». И такой вывод привлечет целый ряд аргументов от тех, кто рассматривает вашу работу! Философски, это делаетверните нас к вопросу: "что есть истина?" Возможно, «правда» неопровержима даже для самого доказательства. Статистика - это научный инструмент для количественной оценки неопределенности. Я по-прежнему утверждаю, что, хотя доказательства могут строго указывать на правду, всегда существует риск ложного положительного результата, и Хороший статистик должен сообщить об этом риске. Даже в теореме байесовского решения о принятии решения дается правило принятия решения, чтобы мы могли принимать или отклонять гипотезы, основанные на байесовских факторах, которые приблизительно пропорциональны , но наше убеждение никогда не бывает равным или даже если мы принимаем решение. Теория принятия решений дает нам возможность «идти вперед» с частичным знанием и принимать эти риски. $Pr(H_0 | X)$ $1$ $0$

Частью обоснования статистического тестирования нулевой гипотезы (NHST) и значения является философия фальсификации Карла Поппера . В этом: критическое предположение состоит в том, что «истина» никогда не известна, мы можем только опровергнуть другие гипотезы. Интересное и действительная критика NHST является то , что вы вынуждены делать нелепые предположения, как , что курение делает не причина рака , когда вы действительно заинтересованы в описательном (не логических выводе) исследований: и вы просто описывая , как много рак курения вызывает , $p$

Обратная критика была применена к Байесовским исследованиям, где вы можете свободно применять априоры: «Деннис Линдли сказал:« При прежней вероятности 0, что луна сделана из сыра, астронавты, возвращающиеся с руками, полными сыра, все еще не могли убедить ».

Отсутствующая информация, позволяющая определить, верна ли нулевая гипотеза, - это, как правило, знание о том, верна ли нулевая гипотеза. По иронии судьбы, когда мы сфокусированы на описательной статистике, мы можем принять допустимые диапазоны возможных эффектов и сделать несколько решительный вывод о том, что тенденция, вероятно, верна: но статистическое тестирование не приводит нас к таким выводам. Даже в байесовском умозаключении никакие данные не приведут к единственному апостериорному описанию без каких-либо методологических проблем, поэтому включение априорного решения не решает эту проблему.

Adamo
источник

1

«С предыдущей вероятностью 0, что луна сделана из сыра», но с учетом «cogito ergo sum» (и, возможно, даже не это), это все, что мы знаем наверняка, если мы дадим предварительную вероятность 0, что луна сделана из сыра Значения 0 и 1 должны быть зарезервированы для логически невозможного и достоверного, а eps и 1-eps - для утверждений о реальном мире. Байесовский фреймворк хорош, если ваши априорные значения точно отражают ваши предварительные знания о проблеме (но это само по себе проблема).

Дикран Marsupial

1

@DikranMarsupial Ваш аргумент против такого использования 0/1 - именно то, что предлагает цитата. Это высмеивает ситуацию, чтобы объяснить необходимость того, что Линдли называет правилом Кромвеля .

NWN

1

@watarok спасибо за ссылку / разъяснение, кажется, что упоминание в ответе немного вводит в заблуждение, поскольку Линдли на самом деле не критикует Байесовские исследования, просто чрезмерно уверенные приоры.

Дикран Marsupial

@DikranMarsupial Я думаю, что проблема чрезмерно уверенных приоров - это проблема, которую можно применить ко всей байесовской статистике. Неинформативный априор часто приводит к приблизительным частым выводам и анализу в любом случае. Разница в интерпретации: байесовские результаты должны совпадать с идеей «истины» или «истинного параметра». Это хорошо, если мы тщательно опишем предположения и то, как мощность и частота ошибок фиксированы.

AdamO

@watarok мой учитель шотландской статистики Байеса регулярно использовал эту цитату, но никогда не описывал ее актуальность. Я рад знать это сейчас.

AdamO

6

Есть две попытки сделать именно то, что вы сказали в статистической истории, Байесовский и Фидуциальный. Р.А. Фишер основал две школы статистического мышления: школу правдоподобия, построенную на методе максимального правдоподобия, и доверительную, которая закончилась неудачей, но пытается сделать именно то, что вы хотите.

Короткий ответ относительно того, почему он потерпел неудачу, состоит в том, что его распределения вероятностей не в конечном итоге объединяются в единое целое. В итоге урок состоял в том, что предварительная вероятность - это необходимая вещь для создания того, что вы пытаетесь создать. В самом деле, вы идете по пути одного из величайших статистиков истории, и более чем несколько других великих людей погибли в надежде решить эту проблему. Если бы это было найдено, это поместило бы методы нулевой гипотезы в один ряд с байесовскими методами с точки зрения типов проблем, которые они могли бы решить. В самом деле, это протолкнуло бы Байеса за исключением тех случаев, когда существовала реальная предварительная информация.

Вы также хотите быть осторожным со своим утверждением, что значение p указывает на более высокую вероятность для альтернативы. Это верно только для школы фишерианского правдоподобия. Это совсем не так в школе Пирсона-Неймана. Ваша нижняя ставка выглядит как ставка Пирсона-Неймана, в то время как ваша p-величина несовместима, поскольку она поступает из школы Fisherian.

Чтобы быть благотворительным, я собираюсь предположить, что для вашего примера, что нет предвзятости публикации, и поэтому только значительные результаты появляются в журналах, создавая высокий уровень ложных открытий. Я рассматриваю это как случайную выборку всех выполненных исследований, независимо от результатов. Я бы сказал, что ваши шансы на ставки не будут соответствовать классическому значению слова де Финетти.

В мире де Финетти ставка является последовательной, если букмекер не может быть разыгран игроками, чтобы они понесли определенную потерю. В простейшей конструкции это похоже на решение проблемы разрезания торта. Один человек разрезает кусок пополам, а другой выбирает, какой кусок он хочет. В этой конструкции один человек будет указывать цены для ставок по каждой гипотезе, но другой человек будет либо покупать, либо продавать ставку. По сути, вы можете коротко продать ноль. Чтобы быть оптимальным, шансы должны быть строго справедливыми. P-значения не приводят к честным разногласиям.

Чтобы проиллюстрировать это, рассмотрим исследование Wetzels и др. На http://ejwagenmakers.com/2011/WetzelsEtAl2011_855.pdf.

Вот цитата: Рууд Ветцельс, Дора Мацке, Майкл Д. Ли, Джеффри Н. Роундер, Джеффри Дж. Айверсон и Эрик-Ян Вагенмакерс. Статистические данные в экспериментальной психологии: эмпирическое сравнение с использованием 855 т тестов. Перспективы психологической науки. 6 (3) 291-298. 2011

Это прямое сравнение 855 опубликованных t-тестов с использованием байесовских коэффициентов, чтобы обойти проблему предыдущего распределения. В 70% значений р между 0,05 и 0,01 байесовские факторы были в лучшем случае анекдотичными. Это связано с математической формой, используемой Frequentists для решения проблемы.

Методы нулевой гипотезы предполагают, что модель верна, и по своей конструкции используют минимаксное статистическое распределение, а не распределение вероятностей. Оба эти фактора влияют на различия между байесовскими и небайесовскими решениями. Рассмотрим исследование, в котором байесовский метод оценивает апостериорную вероятность гипотезы как три процента. Представьте, что значение p составляет менее пяти процентов. Оба верны, так как три процента - меньше чем пять процентов. Тем не менее, р-значение не является вероятностью. В нем указывается только максимальное значение, которое может быть вероятностью просмотра данных, а не фактической вероятностью гипотезы, истинной или ложной. Действительно, при построении p-значения вы не можете различить эффекты из-за случайности с истинным нулем и ложным нулем с хорошими данными.

Если вы посмотрите на исследование Ветцеля, вы заметите, что совершенно очевидно, что шансы, подразумеваемые значениями р, не совпадают с шансы, вытекающие из байесовской меры. Поскольку байесовская мера является как допустимой, так и когерентной, а небайесовская - не когерентной, небезопасно предполагать, что р-значения отображаются в истинные вероятности. Принудительное предположение о допустимости нулевого значения обеспечивает хорошие вероятности покрытия, но не дает хороших вероятностей азартных игр.

Чтобы лучше понять, почему, рассмотрим первую аксиому Кокса о том, что правдоподобность гипотезы можно описать действительным числом. Неявно это означает, что все гипотезы имеют действительные числа, связанные с их правдоподобием. В методах нулевой гипотезы только нулевое имеет действительное число, связанное с его правдоподобием. Альтернативная гипотеза не имеет измерения, и это, конечно, не дополнение к вероятности наблюдения данных, учитывая, что нулевое значение истинно. Действительно, если значение равно нулю, то допущение ложно по предположению, независимо от данных.

Если вы построите вероятности, используя p-значения в качестве основы для своих измерений, то байесовский метод, использующий байесовские измерения, всегда сможет получить преимущество над вами. Если бы байесовские шансы установили коэффициенты, то теория решений Пирсона и Неймана предоставила бы отчет о ставке или не делала ставки, но они не смогли бы определить сумму ставки. Поскольку шансы Байеса были справедливыми, ожидаемый выигрыш от использования метода Пирсона и Неймана был бы нулевым.

Действительно, исследование Wetzel - это то, о чем вы говорите, но на 145 ставок меньше. Если вы посмотрите на таблицу три, вы увидите некоторые исследования, в которых Frequentist отклоняет ноль, но байесовский обнаруживает, что вероятность благоприятствует нулю.

Дейв Харрис
источник

5

Частотный анализ не может дать вам вероятность того, что конкретная гипотеза верна (или ложна), потому что у нее нет длительной частоты (она либо истинна, либо нет), поэтому мы не можем присвоить ей вероятность (кроме, возможно, 0 или 1). ). Если вы хотите узнать вероятность того, что конкретная гипотеза верна, нам нужно принять байесовскую структуру (где она проста, нам просто нужно рассмотреть априорные вероятности и т. Д.).

Частые пользователи могут найти оптимальные стратегии для действия на тестах нулевой гипотезы (структура Неймана-Пирсона ), но они не могут перевести это в вероятность того, что гипотеза верна, но только из-за их определения вероятности.

Дикран Сумчатый
источник

Не могли бы вы уточнить, что «нельзя перевести это в вероятность того, что гипотеза верна, но только из-за определения вероятности», потому что я не понимаю, почему это так?

Частые участники определяют вероятности в терминах долгосрочных частот, а истинность конкретной гипотезы не имеет (нетривиальной) долгосрочной частоты, поэтому частый человек не может приписать ей вероятность. en.wikipedia.org/wiki/Frequentist_probability Вот почему мы говорим несколько загадочные вещи, такие как «мы можем отвергнуть нулевую гипотезу на уровне значимости X», а не «вероятность того, что H0 будет ложным, равна p» (что является Форма ответа мы обычно хотим).

Дикран Marsupial

1

p (H_{0} = t r u e)

$p(H_0=\mathrm{true})$

p (H_{0} = t r u e | D)

$p(H_0=\mathrm{true}|D)$

p (D | H_{0} = t r u e)

$p(D|H_0=\mathrm{true})$

H_{0}

$H_0$

см. мой ответ в этой теме, также для @matus.

@DikranMarsupial не примет ли байесовский что-то только как "правду", если вероятность для определенного результата равна 1, а для всех других возможностей это 0? Можете ли вы когда-нибудь получить это в байесовском анализе? Вам понадобится вероятность, которая доминирует над предыдущими, но тогда и частым лицам, и байесовцам придется уступить: данные нам все рассказали.

AdamO

1

После того, как вы сделали ставки на все 1000 занятий, на вас взошел оракул и сказал, какая гипотеза верна. Эта информация позволяет вам урегулировать ставки. Я утверждаю, что существует оптимальная стратегия для этой игры.

Проблема в вашей настройке - Oracle. Это обычно не приходит, чтобы уладить ставки. Скажем, вы держите пари, что вероятность того, что курение вызывает рак, составляет 97%. Когда этот Оракул придет, чтобы уладить ставку? Никогда. Тогда как бы вы доказали, что ваша оптимальная стратегия оптимальна?

Однако если вы удалите Oracle и представите других агентов, таких как конкуренты и клиенты, тогда будет оптимальная стратегия. Боюсь, это не будет основано на p-значениях. Это было бы больше похоже на подход Госсета с функциями потерь. Например, вы и ваши конкуренты в сельскохозяйственном секторе делают ставку на прогноз погоды, который будет верным. Кто выберет лучшую стратегию, тот заработает больше денег. В Oracle нет необходимости, а ставки рассчитываются на рынках. Вы не можете основывать стратегию на p-значениях здесь, вы должны учитывать потери и прибыль в долларах.

Аксакал
источник

Почему мы не можем просто предположить, что Оракул приедет, чтобы немедленно урегулировать ставки?

Атте

Почему мы не можем предположить, что, как только мы оценим выборку, означает, что Oracle приходит и говорит нам, что означает население? Это то же самое, если вы думаете об этом. Это просто нереально.

Аксакал

0

$H_0: \mu_L=1.75$ $H_1: \mu_L \ne 1.75$

$H_0$ $P(H_0=TRUE)$

$H_0$

Для потока на p-значениях см. Непонимание P-значения?

$H_0$ $H_0$

$H_0:$ $H_1:$

$H_0$ $H_0$

$H_0$ $H_0$ $H_1$

$H_0$ $H_0$ $H_1$ $H_0$

$H_0$ $H_1$

Они просто выражают свою веру в свое «заключение теста», полученное из «доступных данных».

источник

Использование p-значения для вычисления вероятности того, что гипотеза верна; что еще нужно?

Ответы: