Какова связь между тестом хи-квадрат и тестом равных пропорций?

52

Предположим, что у меня есть три популяции с четырьмя взаимоисключающими характеристиками. Я беру случайные выборки из каждой популяции и строю кросс-таблицу или таблицу частот для характеристик, которые я измеряю. Правильно ли я сказал, что:

  1. Если я хотел проверить, существует ли какая-либо связь между популяциями и характеристиками (например, имеет ли одна популяция более высокую частоту одной из характеристик), я должен выполнить тест хи-квадрат и посмотреть, является ли результат значительным.

  2. Если критерий хи-квадрат является значимым, это только показывает мне, что существует некоторая связь между популяциями и характеристиками, но не то, как они связаны.

  3. Кроме того, не все характеристики должны быть связаны с населением. Например, если разные популяции имеют существенно различающиеся распределения характеристик A и B, но не C и D, тогда критерий хи-квадрат может все же вернуться как существенный.

  4. Если бы я хотел измерить, влияет ли популяция на конкретную характеристику, я мог бы выполнить тест на равные пропорции (я видел это как z-тест, или как prop.test()в R) только для этой характеристики.

Другими словами, уместно ли использовать prop.test()для более точного определения характера отношений между двумя наборами категорий, когда критерий хи-квадрат говорит о существенной взаимосвязи?

hgcrpd
источник
Читайте также: stats.stackexchange.com/q/173415/3277 .
ttnphns

Ответы:

23

Очень короткий ответ:

Тест хи-квадрат ( chisq.test()в R) сравнивает наблюдаемые частоты в каждой категории таблицы сопряженности с ожидаемыми частотами (вычисленными как произведение предельных частот). Он используется для определения того, являются ли отклонения между наблюдаемым и ожидаемым значениями слишком большими, чтобы их можно было отнести к случайности. Выезд из независимости легко проверить путем проверки остатков (попробуйте ?mosaicplotили ?assocplot, но также посмотрите на vcdпакет). Используйте fisher.test()для точного теста (опираясь на гипергеометрическое распределение).

prop.test()Функция в R позволяет проверить , является ли пропорции сравнимы между группами или ничем не отличаются от теоретических вероятностей. Он называется -test, потому что статистика теста выглядит следующим образом:Z

Zзнак равно(е1-е2)п^(1-п^)(1N1+1N2)

где р = ( р 1 + р 2 ) / ( п 1 + п 2 ) , а индексы ( 1 , 2 ) относятся к первой и второй строке вашей таблицы. В таблице двусторонних ситуаций, где H 0 :п^знак равно(п1+п2)/(N1+N2)(1,2) , это должно дать сопоставимые результаты с обычнымтестом χ 2 :ЧАС0:п1знак равноп2χ2

> tab <- matrix(c(100, 80, 20, 10), ncol = 2)
> chisq.test(tab)

    Pearson's Chi-squared test with Yates' continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476

> prop.test(tab)

    2-sample test for equality of proportions with continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476
alternative hypothesis: two.sided 
95 percent confidence interval:
 -0.15834617  0.04723506 
sample estimates:
   prop 1    prop 2 
0.8333333 0.8888889 

Для анализа дискретных данных с помощью R я настоятельно рекомендую R (и S-PLUS) Руководство по сопровождению анализа данных Agresti (2002) от Laura Thompson.

хл
источник
2
Есть ли общее имя для теста, который выполняет prop.test ()?
Atticus29
2
«Это называется z-тест».
Russellpierce
@chl Я немного запутался - я подумал, prop.testи chisq.testоба используют хи-квадрат, который объясняет одинаковые значения p, а также почему в этом посте для R-Bloggers у них есть своя специальная функция ad hoc.
Антони Пареллада
@Antoni Да, именно это объяснил Кит в своем ответе.
ХЛ
3
n1n2f1f2p1p2
23

zp

α

α

Самый мощный тест на равенство пропорций называется тестом Барнарда на превосходство .

Кит Винстейн
источник
@ gung Я немного запутался - я подумал, prop.testи chisq.testоба используют хи-квадрат, который объясняет одинаковые значения p, а также почему в этом посте для R-Bloggers у них есть своя специальная функция ad hoc.
Антони Пареллада
Я не понимаю, что тебя смущает, @AntoniParellada. В этом ответе говорится, что они «абсолютно одинаковы», что имеет смысл, если «оба используют хи-квадрат».
gung - Восстановить Монику
@gung в исходном ответе chl утверждает, что prop.test()... называется z-тестом в отличие от chisq.test(). Позже Кит говорит: «Критерий хи-квадрат на равенство двух пропорций - это то же самое, что и z-тест. (Именно поэтому @chl получает одинаковое значение p в обоих тестах.)»
Антони Пареллада
1
Кажется, это просто неудачное выражение, @AntoniParellada. Концептуально два теста отличаются друг от друга, о чем я и говорил в моем другом ответе, который вы видели. Но математически они эквивалентны. На самом деле, я считаю, что функция R на prop.test()самом деле просто вызывает chisq.test()и печатает вывод по-разному.
gung - Восстановить Монику
@gung Я работал над функцией, похожей на R-Bloggers, и собирался сделать пост для людей на уровне моего начинающего, в котором я процитировал бы вас по поводу нескольких ключевых концепций, которые вы написали, пробежавшись по математике для чи квадрат и Z-тест, а затем давая код R.
Антони Пареллада