В комментарии, недавно размещенном здесь, один комментатор указал на блог Ларри Вассермана, который указывает (без каких-либо источников), что частые выводы противоречат принципу вероятности.
Принцип правдоподобия просто говорит о том, что эксперименты, дающие сходные функции правдоподобия, должны давать аналогичные выводы.
Две части к этому вопросу:
Какие части, вкус или школа частых умозаключений особенно нарушают принцип правдоподобия?
Если есть столкновение, мы должны отказаться от одного или другого? Если так, то какой? Для обсуждения я предложу, что если мы должны что-то отбросить, то мы должны отбросить части частых умозаключений, которые сталкиваются, потому что Хакинг и Рояль убедили меня в том, что принцип правдоподобия является аксиоматическим.
Ответы:
Частью подхода Frequentist, который вступает в противоречие с принципом правдоподобия, является теория статистического тестирования (и вычисления p-значения). Обычно это подчеркивается следующим примером.
Предположим, что два Frequentist хотят изучить смещенную монету, которая поворачивает «головы» с неизвестной пригодностью . Они подозревают , что она смещена в сторону «хвоста», поэтому они постулируют же нулевую гипотезу р = 1 / 2 и ту же альтернативную гипотезу р < 1p p=1/2 .p<1/2
Первый статист переворачивает монету, пока не появятся «головы», что случается 6 раз. Второй решает перевернуть монету 6 раз и получает только одну «голову» в последнем броске.
Согласно модели первого статистика, значение p вычисляется следующим образом:
Согласно модели второго статистика, значение p вычисляется следующим образом:
Замена от 1 / 2 , первые находки р-значение , равное 1 / 2 5 = 0,03125 , второй находит р-значение , равное 7 / 2 × 1 / 2 5 =p 1/2 1/25=0.03125 .7/2×1/25=0.109375
Таким образом, они получают разные результаты, потому что они сделали разные вещи, верно? Но по принципу правдоподобия они должны прийти к такому же выводу. Вкратце, принцип правдоподобия гласит, что вероятность - это все, что имеет значение для вывода. Таким образом, столкновение здесь происходит из-за того, что оба наблюдения имеют одинаковую вероятность, пропорциональную (вероятность определяется с точностью до константы пропорциональности).p(1−p)5
Насколько я знаю, ответ на ваш второй вопрос более дискуссионное мнения. Я лично стараюсь не выполнять тесты и вычислять p-значения по вышеуказанной причине, а для других - в этом посте .
РЕДАКТИРОВАТЬ: Теперь, когда я думаю об этом, оценки по доверительным интервалам также будет отличаться. На самом деле, если модели отличаются, CI отличаются по конструкции.p
источник
Мне нравится пример @ gui11aume (+1), но может сложиться впечатление, что разница в двух значениях возникает только из-за разных правил остановки, используемых двумя экспериментаторами.p
На самом деле, я считаю, что это гораздо более общее явление. Рассмотрим второго экспериментатора в ответе @ gui11aume: тот, кто бросает монету шесть раз и наблюдает за головами только в последнем броске. Результаты выглядят так:
Так что, если в этом случае частота ошибок была зафиксирована наα = 0,05 то выбор статистики теста может легко сделать результаты значительными или нет, и это не имеет ничего общего с правилами остановки как таковыми .
Умозрительная часть
Теперь, с философской точки зрения, я бы сказал, что частый выбор тестовой статистики в некотором неопределенном смысле похож на байесовский выбор предшествующего уровня. Мы выбираем ту или иную тестовую статистику, потому что считаем, что недобросовестная монета будет вести себя тем или иным образом (и мы хотим иметь возможность обнаруживать это поведение). Разве это не похоже на установку типов монет?
Если это так, то принцип правдоподобия, гласящий, что все доказательства находятся в вероятности, не противоречитп -значения, потому что п -значение тогда не только «количество доказательств». Это «мера удивления», но что-то может быть мерилом удивления только в том случае, если это объясняет то, что нас удивит! п -значение пытается объединить в одной скалярной величине как доказательство, так и своего рода априорные ожидания (как представлено в выборе статистики теста). Если это так, то его не следует сравнивать с самой вероятностью, а, скорее, с задней?
Мне было бы очень интересно услышать некоторые мнения об этой умозрительной части здесь или в чате.
Обновите следующее обсуждение с @MichaelLew
Я боюсь, что мой пример выше упустил смысл этой дискуссии. Выбор другой тестовой статистики также приводит к изменению функции правдоподобия. Так два разныхп -значения, вычисленные выше, соответствуют двум различным функциям правдоподобия и, следовательно, не могут быть примером "столкновения" между принципом правдоподобия и п -ценности. Прелесть примера @ gui11aume в том, что функция правдоподобия остается точно такой же, хотяп -values differ.
I still have to think what this means for my "speculative" part above.
источник