Предположим, что у меня есть три популяции с четырьмя взаимоисключающими характеристиками. Я беру случайные выборки из каждой популяции и строю кросс-таблицу или таблицу частот для характеристик, которые я измеряю. Правильно ли я сказал, что:
Если я хотел проверить, существует ли какая-либо связь между популяциями и характеристиками (например, имеет ли одна популяция более высокую частоту одной из характеристик), я должен выполнить тест хи-квадрат и посмотреть, является ли результат значительным.
Если критерий хи-квадрат является значимым, это только показывает мне, что существует некоторая связь между популяциями и характеристиками, но не то, как они связаны.
Кроме того, не все характеристики должны быть связаны с населением. Например, если разные популяции имеют существенно различающиеся распределения характеристик A и B, но не C и D, тогда критерий хи-квадрат может все же вернуться как существенный.
Если бы я хотел измерить, влияет ли популяция на конкретную характеристику, я мог бы выполнить тест на равные пропорции (я видел это как z-тест, или как
prop.test()
вR
) только для этой характеристики.
Другими словами, уместно ли использовать prop.test()
для более точного определения характера отношений между двумя наборами категорий, когда критерий хи-квадрат говорит о существенной взаимосвязи?
Ответы:
Очень короткий ответ:
Тест хи-квадрат (
chisq.test()
в R) сравнивает наблюдаемые частоты в каждой категории таблицы сопряженности с ожидаемыми частотами (вычисленными как произведение предельных частот). Он используется для определения того, являются ли отклонения между наблюдаемым и ожидаемым значениями слишком большими, чтобы их можно было отнести к случайности. Выезд из независимости легко проверить путем проверки остатков (попробуйте?mosaicplot
или?assocplot
, но также посмотрите наvcd
пакет). Используйтеfisher.test()
для точного теста (опираясь на гипергеометрическое распределение).prop.test()
Функция в R позволяет проверить , является ли пропорции сравнимы между группами или ничем не отличаются от теоретических вероятностей. Он называется -test, потому что статистика теста выглядит следующим образом:где р = ( р 1 + р 2 ) / ( п 1 + п 2 ) , а индексы ( 1 , 2 ) относятся к первой и второй строке вашей таблицы. В таблице двусторонних ситуаций, где H 0 :p^=(p1+p2)/(n1+n2) (1,2) , это должно дать сопоставимые результаты с обычнымтестом χ 2 :H0:p1=p2 χ2
Для анализа дискретных данных с помощью R я настоятельно рекомендую R (и S-PLUS) Руководство по сопровождению анализа данных Agresti (2002) от Laura Thompson.
источник
prop.test
иchisq.test
оба используют хи-квадрат, который объясняет одинаковые значения p, а также почему в этом посте для R-Bloggers у них есть своя специальная функция ad hoc.Самый мощный тест на равенство пропорций называется тестом Барнарда на превосходство .
источник
prop.test
иchisq.test
оба используют хи-квадрат, который объясняет одинаковые значения p, а также почему в этом посте для R-Bloggers у них есть своя специальная функция ad hoc.prop.test()
... называется z-тестом в отличие отchisq.test()
. Позже Кит говорит: «Критерий хи-квадрат на равенство двух пропорций - это то же самое, что и z-тест. (Именно поэтому @chl получает одинаковое значение p в обоих тестах.)»prop.test()
самом деле просто вызываетchisq.test()
и печатает вывод по-разному.