Допустим, у меня есть друг (назовем его «Джордж»), который говорит, что он может контролировать бросок костей, используя свой ум (т. Е. Повысить вероятность выпадения костей на конкретное число, о котором он думает).
Как я могу разработать строгий с научной точки зрения тест, чтобы определить, действительно ли он может это сделать? (Я действительно не думаю, что он может, конечно, но я хочу, чтобы он согласился с деталями теста, Amazing Randi-style, до того, как тест начнется.) Я хочу уменьшить (очень вероятно) пост-тестовые отговорки что он придумает.
Вот что у меня так далеко:
Определите физическую технику бросания игральных костей (игра в кости, шейкер, посадочная поверхность и т. Д.)
Определите «тестовую сессию», состоящую из X бросков костей. Это должно быть достаточно маленьким, чтобы сделать это за один присест, но достаточно большим, чтобы определить (после анализа) в пределах 95% -99% уверенности, была ли игра в кости справедливой или предпочтительной для одной стороны
Запустите Y сессий на выбранных кубиках (без влияния Джорджа) в качестве «контроля», чтобы убедиться, что игра в кости показывает «справедливые» результаты самостоятельно
Запустите Z сессий с Джорджем. Перед каждым бросайте отдельный кубик, чтобы определить, на каком числе Джордж «сконцентрируется» в течение всей этой сессии.
Скомпилируйте и проанализируйте результаты.
Джордж выдвигает некоторые оправдания за свою мрачную работу.
Итак, мои вопросы к вам:
Есть ли недостатки или проблемы с моей общей методологией? На что Джордж, вероятно, будет возражать?
Должен ли я использовать D6? Или D20? Это имеет значение? Требуется ли фильеру с большим числом лиц больше бросков, чтобы получить столь же уверенные результаты? Или наоборот? Я бы предпочел меньше рулонов, чем больше, из-за практических соображений :)
Каковы разумные значения для X , Y и Z ? Они не совсем не связаны; если выбранное мной значение X допускает только 95% достоверности для одного сеанса, то 1 из каждых 20 сеансов может "потерпеть неудачу", даже без влияния Джорджа
Как определить «успех» или «провал» для отдельной сессии? (Я нашел этот вопрос, который проходит через детали теста хи-квадрат, поэтому я думаю, что это моя методология оценки, но каковы разумные доверительные пороги?)
Как определить «успех» или «провал» для общего теста? Джордж может «выиграть» одну сессию по чистой случайности, но сколько из Z сессий ему придется пройти, чтобы пройти весь тест?
Я, вероятно, проанализирую эти результаты в электронной таблице MS Excel, если это что-то изменит.
Ответы:
Я бы порекомендовал проанализировать это следующим образом:
Подсчитайте каждую роль, в которой Джордж успешно предсказывает результат как успех, а каждую другую - как провал. Затем вы легко рассчитаете вероятность успеха для Джорджа и 95% или 99% доверительный интервал. Он утверждает, что может предсказать результат «вдвое лучше», чем случайное бросание костей? Затем:
H0: p> = 1/3
H1: p <1/3
(при условии 6-ти стороннего штампа).
Оттуда довольно просто сделать проверку гипотезы. Кроме того, вы можете легко вычислить мощность априори (даже в чем-то вроде Excel). Выберите количество бросков (например, 10), а затем составьте таблицу с возможными успехами в виде строк (0-10). Затем для каждого успеха вычислите вероятность того, что у него будет столько успехов (если он просто гадал, что мы и предполагаем, что он делает). Также для каждого значения определите, приведет ли оно к отклонению или принятию значения NULL. Затем, чтобы найти силу, вы можете просто сложить все вероятности, где ноль будет отклонен.
источник
источник