ФОН: Пропустите безопасно - это здесь для справки, и чтобы узаконить вопрос.
Открытие этой статьи гласит:
«Знаменитый критерий непредвиденных обстоятельств Карла Пирсона по хи-квадрату получен из другой статистики, называемой z-статистикой, основанной на нормальном распределении. Можно показать, что самые простые версии математически идентичны эквивалентным z-тестам. Тесты дают тот же результат при любых обстоятельствах. Для всех намерений и целей «хи-квадрат» можно было бы назвать «z-квадратом». Критические значения для одной степени свободы являются квадратом соответствующих критических значений z ».
Это было заявлено несколько раз в резюме ( здесь , здесь , здесь и другие).
И действительно, мы можем доказать, что эквивалентно с :
Допустим, что и и найдем плотность с помощью метода :
. Проблема в том, что мы не можем интегрировать в близкой форме плотность нормального распределения. Но мы можем выразить это:
Поскольку значения нормали симметричны:
. Приравнивая это кнормали (теперьвбудет подключить к часть нормальногоpdf); и не забывая включить1 в конце:
Сравните с pdf квадрата хи:
Так как , для1df, мы вывели именноpdfквадрата хи.
Кроме того, если мы будем называть функцию prop.test()
в R мы вызываете такую же тест , как если мы решим на .chisq.test()
ВОПРОС:
Таким образом, я получил все эти пункты, но я все еще не знаю, как они применяются к фактической реализации этих двух тестов по двум причинам:
Z-тест не в квадрате.
Фактическая статистика тестов совершенно иная:
Значение тест-статистики для составляет:
где
= совокупная тестовая статистика Пирсона, которая асимптотически приближается краспределению χ 2 . O i = количество наблюдений типа i ; N = общее количество наблюдений; E i = N p i = ожидаемая (теоретическая) частота типа i , утверждаемая нулевой гипотезой о том, что доля типа i в популяции равна p i ; n = количество ячеек в таблице.
С другой стороны, тестовая статистика для теста :
сp=x1 , гдеx1иx2- количество «успехов» по количеству субъектов на каждом из уровней категориальных переменных, то естьn1иn2.
Эта формула, кажется, опирается на биномиальное распределение.
Эти две статистики тестов явно различаются и приводят к различным результатам для фактической статистики тестов, а также для p- значений : 5.8481
для и для z-теста, где 2,4183 2 = 5,84817 (спасибо, @ mark999 ). Р -значение для χ 2 теста , в то время как для г-тест . Разница объясняется двусторонним и односторонним: 0,01559 / 2 = 0,007795 (спасибо @amoeba).2.4183
0.01559
0.0077
Так на каком уровне мы говорим, что они одно и то же?
источник
chisq.test()
, вы пытались с помощьюcorrect=FALSE
?Ответы:
Let us have a 2x2 frequency table where columns are two groups of respondents and rows are the two responses "Yes" and "No". And we've turned the frequencies into the proportions within group, i.e. into the vertical profiles:
The usual (not Yates corrected)χ2 of this table, after you substitute proportions instead of frequencies in its formula, looks like this:
(p1,q1)
and(p2,q2)
, and plug it in the formula, to obtainDivide both numerator and denominator by the(n21n2+n1n22) and get
the squared z-statistic of the z-test of proportions for "Yes" response.
Thus, the
2x2
homogeneity Chi-square statistic (and test) is equivalent to the z-test of two proportions. The so called expected frequencies computed in the chi-square test in a given column is the weighted (by the groupn
) average vertical profile (i.e. the profile of the "average group") multiplied by that group'sn
. Thus, it comes out that chi-square tests the deviation of each of the two groups profiles from this average group profile, - which is equivalent to testing the groups' profiles difference from each other, which is the z-test of proportions.This is one demonstration of a link between a variables association measure (chi-square) and a group difference measure (z-test statistic). Attribute associations and group differences are (often) the two facets of the same thing.
(Showing the expansion in the first line above, By @Antoni's request):
источник