Если принцип правдоподобия вступает в противоречие с вероятностной вероятностью, тогда отбрасываем ли мы один из них?

19

В комментарии, недавно размещенном здесь, один комментатор указал на блог Ларри Вассермана, который указывает (без каких-либо источников), что частые выводы противоречат принципу вероятности.

Принцип правдоподобия просто говорит о том, что эксперименты, дающие сходные функции правдоподобия, должны давать аналогичные выводы.

Две части к этому вопросу:

  1. Какие части, вкус или школа частых умозаключений особенно нарушают принцип правдоподобия?

  2. Если есть столкновение, мы должны отказаться от одного или другого? Если так, то какой? Для обсуждения я предложу, что если мы должны что-то отбросить, то мы должны отбросить части частых умозаключений, которые сталкиваются, потому что Хакинг и Рояль убедили меня в том, что принцип правдоподобия является аксиоматическим.

Майкл Лью
источник
2
Я никогда не понимаю, почему принцип правдоподобия должен быть аксиомой.
Стефан Лоран
6
Привет, Стефан. Проблема в том, что Бирнбаум доказал, что Вероятность эквивалентна двум другим принципам, которые настолько естественны, что их обязательно следует придерживаться. Мы написали краткий обзор этого результата. Здесь: ime.usp.br/~pmarques/papers/redux.pdf
Дзен
@ Zen Спасибо. На первый взгляд, я не согласен с тем, что это предложение написано ниже принципа обусловленности: «Что важно, так это то, что на самом деле произошло». Вместо этого я должен сказать: «Что важно, так это то, что на самом деле произошло среди проблем, которые могли произойти» (извините, если мой английский не верен). Именно об этом я и говорил в беседе с gui11aume: в определенном смысле принцип правдоподобия утверждает, что план эксперимента не имеет значения, и я не могу согласиться с этим.
Стефан Лоран
1
@Zen Теперь я внимательно прочитал вашу газету. Это правда, что трудно не согласиться с принципом обусловленности и принципом инвариантности.
Стефан Лоран
1
LP не очень популярен в наши дни по практическим соображениям. Принимая это неукоснительно, вы избегаете использования модельно-зависимых априоров, таких как предварительные, сопряженные априорные тесты Джеффриса и проверки гипотез, которые могут быть полезны во многих контекстах. Я считаю , что статистические данные, так же , как физика , не могут быть axiomatised значимым образом (хотя это обсуждение может звучать как это ). Но важно выявить достоинства и недостатки различных парадигм.

Ответы:

12

Частью подхода Frequentist, который вступает в противоречие с принципом правдоподобия, является теория статистического тестирования (и вычисления p-значения). Обычно это подчеркивается следующим примером.

Предположим, что два Frequentist хотят изучить смещенную монету, которая поворачивает «головы» с неизвестной пригодностью . Они подозревают , что она смещена в сторону «хвоста», поэтому они постулируют же нулевую гипотезу р = 1 / 2 и ту же альтернативную гипотезу р < 1pp=1/2 .p<1/2

Первый статист переворачивает монету, пока не появятся «головы», что случается 6 раз. Второй решает перевернуть монету 6 раз и получает только одну «голову» в последнем броске.

Согласно модели первого статистика, значение p вычисляется следующим образом:

p(1p)5+p(1p)6+...=p(1p)511p=p(1p)4.

Согласно модели второго статистика, значение p вычисляется следующим образом:

(61)p(1p)5+(60)(1p)6=(5p+1)(1p)5.

Замена от 1 / 2 , первые находки р-значение , равное 1 / 2 5 = 0,03125 , второй находит р-значение , равное 7 / 2 × 1 / 2 5 =p1/21/25=0.03125 .7/2×1/25=0.109375

Таким образом, они получают разные результаты, потому что они сделали разные вещи, верно? Но по принципу правдоподобия они должны прийти к такому же выводу. Вкратце, принцип правдоподобия гласит, что вероятность - это все, что имеет значение для вывода. Таким образом, столкновение здесь происходит из-за того, что оба наблюдения имеют одинаковую вероятность, пропорциональную (вероятность определяется с точностью до константы пропорциональности).p(1p)5

Насколько я знаю, ответ на ваш второй вопрос более дискуссионное мнения. Я лично стараюсь не выполнять тесты и вычислять p-значения по вышеуказанной причине, а для других - в этом посте .

РЕДАКТИРОВАТЬ: Теперь, когда я думаю об этом, оценки по доверительным интервалам также будет отличаться. На самом деле, если модели отличаются, CI отличаются по конструкции.p

gui11aume
источник
1
У меня сложилось впечатление, что принцип вероятности, очевидно, нарушается в статистике частых случаев (проверка гипотез, доверительные интервалы), потому что мы учитываем вероятность каждого возможного результата, а не только вероятность, основанную на фактическом результате. Правильно ?
Стефан Лоран
@ Стефан Лоран: да, я тоже так понимаю. У Джеймса Бергера есть хорошая цитата из « Статистической теории принятия решений» и «Байесовского анализа» , в которой говорится, что Frequentist иногда отвергает гипотезу из-за данных, которые никогда не наблюдались (звучит лучше, но я не могу вспомнить это).
gui11aume
Спасибо, gui11aume. Правильно ли я истолковал это как пример, где «значение» P-значений меняется в зависимости от намерений экспериментатора? Я предполагаю, что это тот случай, когда P-значения интерпретируются как своего рода пороговый уровень ложноположительных ошибок, потому что они должны быть равномерно распределены в соответствии с нулевой гипотезой? Нужно ли это при подходе Фишера, где P-значения представлены в качестве показателей силы доказательств?
Майкл Лью
4
(+1) Подобные расхождения обычно появляются, когда в одну из моделей входит правило остановки .
1
@ Scortchi На самом деле я ошибался, полагая, что одно из значений P указывает на правильную функцию правдоподобия, а другое - нет: они оба указывают на одну и ту же функцию правдоподобия, которая представляет доказательства, относящиеся к вероятности появления голов. Вы должны игнорировать последние два предложения моего предыдущего комментария. (Я не могу редактировать это, не так ли?)
Майкл Лью
4

Мне нравится пример @ gui11aume (+1), но может сложиться впечатление, что разница в двух значениях возникает только из-за разных правил остановки, используемых двумя экспериментаторами.p

На самом деле, я считаю, что это гораздо более общее явление. Рассмотрим второго экспериментатора в ответе @ gui11aume: тот, кто бросает монету шесть раз и наблюдает за головами только в последнем броске. Результаты выглядят так:

TTTTTH,
p764пзнак равно7/640,109

3пзнак равно3/640,047,

Так что, если в этом случае частота ошибок была зафиксирована на αзнак равно0,05то выбор статистики теста может легко сделать результаты значительными или нет, и это не имеет ничего общего с правилами остановки как таковыми .


Умозрительная часть

Теперь, с философской точки зрения, я бы сказал, что частый выбор тестовой статистики в некотором неопределенном смысле похож на байесовский выбор предшествующего уровня. Мы выбираем ту или иную тестовую статистику, потому что считаем, что недобросовестная монета будет вести себя тем или иным образом (и мы хотим иметь возможность обнаруживать это поведение). Разве это не похоже на установку типов монет?

Если это так, то принцип правдоподобия, гласящий, что все доказательства находятся в вероятности, не противоречит п-значения, потому что п-значение тогда не только «количество доказательств». Это «мера удивления», но что-то может быть мерилом удивления только в том случае, если это объясняет то, что нас удивит! п-значение пытается объединить в одной скалярной величине как доказательство, так и своего рода априорные ожидания (как представлено в выборе статистики теста). Если это так, то его не следует сравнивать с самой вероятностью, а, скорее, с задней?

Мне было бы очень интересно услышать некоторые мнения об этой умозрительной части здесь или в чате.


Обновите следующее обсуждение с @MichaelLew

Я боюсь, что мой пример выше упустил смысл этой дискуссии. Выбор другой тестовой статистики также приводит к изменению функции правдоподобия. Так два разныхп-значения, вычисленные выше, соответствуют двум различным функциям правдоподобия и, следовательно, не могут быть примером "столкновения" между принципом правдоподобия и п-ценности. Прелесть примера @ gui11aume в том, что функция правдоподобия остается точно такой же, хотяп-values differ.

I still have to think what this means for my "speculative" part above.

amoeba says Reinstate Monica
источник
Интересные мысли. Да, я согласен, что не должно быть никакого конфликта между LP и P-значениями, пока P-значения не интерпретируются как свидетельство так же, как функция правдоподобия. Функция правдоподобия содержит данные, относящиеся к интересующему параметру, заданному статистической моделью . Когда вы изменяете статистику теста, вы меняете модель, поэтому функция правдоподобия для вашей альтернативной модели (ну, может) может отличаться от функции правдоподобия для оригинала.
Майкл Лью
Майкл, я не уверен, что именно означает "статистическая модель", но это не монета с вероятностью головы п already a model? How does changing the test statistic change the model?
amoeba says Reinstate Monica
Apart from that, I found this question because I was re-reading your "To P or not to P" paper (and googled "likelihood principle"). I generally like the paper, but I got completely confused by the section 4.4. You write that the p-values should not be "adjusted" by taking stopping rules into account; but I don't see any adjustments in the formulas 5-6. What would "unadjusted" p-values be? Do you mean that one of them is adjusted and another one not? If so, which one, and why not vice versa?
amoeba says Reinstate Monica
The statistical model is often ignored or tacitly assumed to be invariant. However, for the coins it includes a fixed unknown probability of heads, a random selection of observations, and, for the head out of trials test statistic, the binomial distribution of possible outcomes. I don't know what the distribution of the outcomes is for the tails in a row test statistic but I suspect it is different. Even if it is the same, the model which has your test statistic is not the same model as the original and so the likelihood function can be different even though it contains all of the evidence.
Michael Lew
Я почти закончил полную переработку этой бумаги. Это имеет отношение к этому обсуждению, но еще не готово для представления. (Это чат?)
Майкл Лью