О точном тесте Фишера: какой тест был бы уместен, если бы женщина не знала количество чашек с молоком?

18

В известном эксперименте с дегустацией чая, проведенном РА Фишер, женщине сообщают, сколько существует чашек для молока / чая (4 на каждую из 8 чашек). Это учитывает фиксированное предельное общее предположение точного критерия Фишера.

Я представлял себе этот тест с моим другом, но мысль поразила меня. Если женщина действительно может определить разницу между чашками для молока и чая, она должна быть в состоянии определить предельные итоги чашек для молока / чая, а также какие из них какие.

Итак, вот вопрос: какой тест можно было бы использовать, если бы Р.А. Фишер не сообщил даме об общем количестве чашек с молоком и чаем?

Alby
источник
4
Некоторые утверждают, что даже если второе поле не является фиксированным по замыслу, оно содержит мало информации о способности женщины различать (т. Е. Является приблизительно вспомогательным) и должно быть обусловлено. Точный безусловный тест (впервые предложенный Барнардом, я думаю) более сложен, потому что вы должны рассчитать максимальное значение p по всем возможным значениям параметра неприятности.
Scortchi - Восстановить Монику
4
На самом деле у теста Барнарда есть страница в Википедии.
Scortchi - Восстановить Монику
@ Scortchi, что еще можно сказать? Я бы ничего не добавил к этому (и при этом я не смог бы сказать это так ясно и кратко). Через ваши два комментария я думаю, что у вас есть хороший ответ там.
Glen_b
1
Есть некоторая дискуссия, которую стоит посмотреть (как среди бумаги, так и для участников дискуссии) в Yates, F. (1984) «Тесты значимости для таблиц непредвиденных обстоятельств 2 × 2», журнал Королевского статистического общества. Серия А (общая) , том. 147, № 3, с. 426-463.
Glen_b
1
Только в среднем, более 4 чашек чая с молоком и 4 без, мы можем сказать, что она имеет вероятность правильного угадывания; И распределение ее правильных догадок более сконцентрировано около 4, чем если бы оно следовало биномиальному распределению. Но если она угадает «молоко» с вероятностью , то она будет правильно угадывать с вероятностью когда в чае есть молоко, а когда его нет, и распределение из ее общего количества правильных догадок следует биномиальное распределение. Таким образом, есть неприятный параметр, который нужно учитывать, ...121212
Scortchi - Восстановить Монику

Ответы:

16

Некоторые утверждают, что даже если второе поле не является фиксированным по замыслу, оно содержит мало информации о способности женщины различать (т. Е. Является приблизительно вспомогательным) и должно быть обусловлено. Точный безусловный тест (впервые предложенный Барнардом ) является более сложным, потому что вы должны вычислить максимальное значение p по всем возможным значениям параметра помех, а именно, по обычной вероятности Бернулли при нулевой гипотезе. Совсем недавно было предложено максимизировать значение p в доверительном интервале для параметра помех: см. Berger (1996), «Более мощные тесты из значений доверительного интервала p», The American Statistician , 50 , 4; Точные тесты правильного размера могут быть построены с использованием этой идеи.

Точный тест Фишера также возникает как рандомизированный тест в смысле Эджингтона: случайное распределение экспериментальных обработок позволяет распределить статистику теста по перестановкам этих назначений, чтобы использовать их для проверки нулевой гипотезы. При таком подходе определения леди считаются фиксированными (и предельные суммы чашек для молока и чая, конечно, сохраняются путем перестановки).

Scortchi - Восстановить Монику
источник
Может Barnard::barnardw.test()быть использован здесь? Какую разницу в вычислительной сложности можно ожидать на практике?
krlmlr
Я не знаком с этим пакетом, но на странице справки, на которую вы ссылаетесь, указан именно тот тест, о котором я говорил. Смотрите также Exact. Что касается сложности вычислений, я не знаю - она ​​будет зависеть от используемого алгоритма максимизации.
Scortchi - Восстановить Монику
2

Сегодня я прочитал первые главы «Проекта экспериментов» Р.А. Фишера, и один из абзацев заставил меня осознать фундаментальный недостаток в моем вопросе.

То есть, даже если дама действительно может различить чашки с молоком и с чаем , я никогда не смогу доказать, что у нее есть такая способность «любым конечным количеством экспериментов». По этой причине, как экспериментатор, я должен начать с предположения, что у нее нет способности (нулевая гипотеза), и попытаться это опровергнуть. И оригинальный дизайн эксперимента (точный тест Фишера) является достаточной, эффективной и оправданной процедурой для этого.

Вот отрывок из «Проекта экспериментов» Р.А. Фишера:

Можно утверждать, что если эксперимент может опровергнуть гипотезу о том, что субъект не обладает сенсорным различением между двумя различными типами объектов, он должен быть в состоянии доказать противоположную гипотезу, что он может сделать некоторую такую ​​дискриминацию. Но эта последняя гипотеза, какой бы разумной или правдивой она ни была, не годится в качестве нулевой гипотезы для проверки экспериментом, потому что она неточна. Если бы утверждалось, что субъект никогда не ошибется в своих суждениях, у нас снова будет точная гипотеза, и легко увидеть, что эта гипотеза может быть опровергнута одним провалом, но никогда не может быть доказана каким-либо конечным количеством экспериментов. ,

Alby
источник
1

Тест Барнарда используется, когда параметр неприятности неизвестен по нулевой гипотезе.

Однако в дегустационном тесте для леди вы можете утверждать, что в соответствии с нулевой гипотезой параметр неприятности может быть установлен равным 0,5 (у неинформированной женщины есть 50% вероятности правильно угадать чашку).

Тогда число правильных догадок, согласно нулевой гипотезе, становится биномиальным распределением: угадывание 8 чашек с вероятностью 50% для каждой чашки.


В других случаях у вас может не быть этой тривиальной вероятности 50% для нулевой гипотезы. А без фиксированных полей вы можете не знать, какой должна быть эта вероятность. В этом случае вам нужен тест Барнарда.


Даже если вы проведете тест Барнарда на дегустации чая для женщин, он все равно станет равным 50% (если все результаты будут правильными), поскольку параметр неприятности с наибольшим значением p равен 0,5 и приведет к тривиальному биномиальному тесту ( на самом деле это комбинация двух биномиальных тестов (один для четырех первых чашек молока и один для четырех первых чашек чая).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

Ниже приведено описание более сложного результата (если не все догадки верны, например, 2 против 4), тогда подсчет того, что является, а что нет, становится немного сложнее.

(Также обратите внимание, что тест Барнарда использует, в случае результата 4-2, параметр неудобства p = 0,686, который, как вы могли бы утверждать, является неправильным, значение p для 50% вероятности ответа «сначала чай» будет 0.08203125. Это становится еще меньше, когда вы рассматриваете другой регион, а не тот, который основан на статистике Вальда, хотя определить регион не так просто )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
Секст Эмпирик
источник