В известном эксперименте с дегустацией чая, проведенном РА Фишер, женщине сообщают, сколько существует чашек для молока / чая (4 на каждую из 8 чашек). Это учитывает фиксированное предельное общее предположение точного критерия Фишера.
Я представлял себе этот тест с моим другом, но мысль поразила меня. Если женщина действительно может определить разницу между чашками для молока и чая, она должна быть в состоянии определить предельные итоги чашек для молока / чая, а также какие из них какие.
Итак, вот вопрос: какой тест можно было бы использовать, если бы Р.А. Фишер не сообщил даме об общем количестве чашек с молоком и чаем?
Ответы:
Некоторые утверждают, что даже если второе поле не является фиксированным по замыслу, оно содержит мало информации о способности женщины различать (т. Е. Является приблизительно вспомогательным) и должно быть обусловлено. Точный безусловный тест (впервые предложенный Барнардом ) является более сложным, потому что вы должны вычислить максимальное значение p по всем возможным значениям параметра помех, а именно, по обычной вероятности Бернулли при нулевой гипотезе. Совсем недавно было предложено максимизировать значение p в доверительном интервале для параметра помех: см. Berger (1996), «Более мощные тесты из значений доверительного интервала p», The American Statistician , 50 , 4; Точные тесты правильного размера могут быть построены с использованием этой идеи.
Точный тест Фишера также возникает как рандомизированный тест в смысле Эджингтона: случайное распределение экспериментальных обработок позволяет распределить статистику теста по перестановкам этих назначений, чтобы использовать их для проверки нулевой гипотезы. При таком подходе определения леди считаются фиксированными (и предельные суммы чашек для молока и чая, конечно, сохраняются путем перестановки).
источник
Barnard::barnardw.test()
быть использован здесь? Какую разницу в вычислительной сложности можно ожидать на практике?Exact
. Что касается сложности вычислений, я не знаю - она будет зависеть от используемого алгоритма максимизации.Сегодня я прочитал первые главы «Проекта экспериментов» Р.А. Фишера, и один из абзацев заставил меня осознать фундаментальный недостаток в моем вопросе.
То есть, даже если дама действительно может различить чашки с молоком и с чаем , я никогда не смогу доказать, что у нее есть такая способность «любым конечным количеством экспериментов». По этой причине, как экспериментатор, я должен начать с предположения, что у нее нет способности (нулевая гипотеза), и попытаться это опровергнуть. И оригинальный дизайн эксперимента (точный тест Фишера) является достаточной, эффективной и оправданной процедурой для этого.
Вот отрывок из «Проекта экспериментов» Р.А. Фишера:
источник
Тест Барнарда используется, когда параметр неприятности неизвестен по нулевой гипотезе.
Однако в дегустационном тесте для леди вы можете утверждать, что в соответствии с нулевой гипотезой параметр неприятности может быть установлен равным 0,5 (у неинформированной женщины есть 50% вероятности правильно угадать чашку).
Тогда число правильных догадок, согласно нулевой гипотезе, становится биномиальным распределением: угадывание 8 чашек с вероятностью 50% для каждой чашки.
В других случаях у вас может не быть этой тривиальной вероятности 50% для нулевой гипотезы. А без фиксированных полей вы можете не знать, какой должна быть эта вероятность. В этом случае вам нужен тест Барнарда.
Даже если вы проведете тест Барнарда на дегустации чая для женщин, он все равно станет равным 50% (если все результаты будут правильными), поскольку параметр неприятности с наибольшим значением p равен 0,5 и приведет к тривиальному биномиальному тесту ( на самом деле это комбинация двух биномиальных тестов (один для четырех первых чашек молока и один для четырех первых чашек чая).
Ниже приведено описание более сложного результата (если не все догадки верны, например, 2 против 4), тогда подсчет того, что является, а что нет, становится немного сложнее.
(Также обратите внимание, что тест Барнарда использует, в случае результата 4-2, параметр неудобства p = 0,686, который, как вы могли бы утверждать, является неправильным, значение p для 50% вероятности ответа «сначала чай» будет 0.08203125. Это становится еще меньше, когда вы рассматриваете другой регион, а не тот, который основан на статистике Вальда, хотя определить регион не так просто )
источник