Как статистика Чи-квадрат Пирсона приближается к распределению Чи-квадрат

10

Таким образом, если статистика Пиарсона Chi Squared дана для таблицы , то ее форма:1×N

i=1n(OiEi)2Ei

Тогда это приближается к , распределению хи-квадрат с степенями свободы, поскольку размер выборки становится больше. н - 1 нχn12n1N

Я не понимаю, как работает это асимптотическое приближение. Я чувствую, что в знаменателях следует заменить на . Так как это даст вам , для . Но, конечно, у этого есть степеней свободы, а не , так что явно происходит что-то еще.s 2 iEi χ 2 n = n i = 1 Z 2 i Zin(0,1)nn-1si2niχn2=i=1nZi2Zin(0,1)nn1

Вос
источник
Хотя это не отвечает на ваш вопрос , оно может пролить свет на это.
whuber

Ответы:

11

Я собираюсь мотивировать это интуитивно и указать, как это происходит для особого случая двух групп, предполагая, что вы счастливы принять нормальное приближение к биному.

Надеюсь, этого будет достаточно, чтобы вы смогли понять, почему это работает так, как работает.

Вы говорите о добротности по критерию хи-квадрат. Допустим, есть групп (у вас это , но есть причина, по которой я предпочитаю называть это ).н кknk

В модели, применяемой для этой ситуации, счетчики , являются полиномиальными . я = 1 , 2 , . , , , кOii=1,2,...,k

Пусть . Подсчет обусловлен суммой (за исключением некоторых довольно редких ситуаций); и есть некоторый заранее заданный набор вероятностей для каждой категории, , которые в сумме равны . N p i , i = 1 , 2 , , k 1N=i=1kOiNpi,i=1,2,,k1

Как и в случае с биномом, существует асимптотическая нормальная аппроксимация для полинома - действительно, если вы учитываете только число в данной ячейке («в этой категории» или нет), тогда оно будет биномиальным. Как и в случае с биномом, дисперсии отсчетов (а также их ковариации в полиноме) являются функциями и ; Вы не оцениваете дисперсию отдельно.рNp

То есть, если ожидаемые значения являются достаточно большими, вектор значений является приблизительно нормальным со средним значением . Однако, поскольку отсчеты обусловлены , распределение является вырожденным (оно существует в гиперплоскости размерности , поскольку указание отсчетов фиксирует оставшееся). Матрица дисперсии-ковариации имеет диагональные элементы и недиагональные элементы , и она имеет ранг из-за вырождения. N k - 1 k - 1 N p i ( 1 - p i ) - N p i p j k - 1Ei=NpiNk1k1Npi(1pi)Npipjk1

В результате для отдельной ячейки вы можете написать . Тем не менее, термины являются зависимыми (отрицательно коррелированными), поэтому, если вы квадраты этих него не будет (как если бы они были независимыми стандартизированными переменными). Вместо этого мы могли бы потенциально построить набор независимых переменных из исходного которые являются независимыми и все еще приблизительно нормальными (асимптотически нормальными). Если бы мы суммировали их (стандартизированные) квадраты, мы получили бы . Есть способы построить такой наборz i = O i - E iVar(Oi)=Npi(1pi) ziχ2kk-1kχ2k-1k-1zi=OiEiEi(1pi)ziχk2k1kχk12k1 переменные явно, но, к счастью, есть очень аккуратный ярлык, который позволяет избежать значительных усилий и дает тот же результат (то же значение статистики), как если бы мы пошли на неприятности.

Для простоты рассмотрим добротность соответствия двум категориям (которая теперь является биномиальной). Вероятность нахождения в первой ячейке равна , а во второй ячейке равна . Наблюдения находятся в первой ячейке, а во второй ячейке.p 2 = 1 - p X = O 1 N - X = O 2p1=pp2=1pX=O1NX=O2

Наблюдаемое число первых ячеек, асимптотически . Мы можем стандартизировать его как . Тогда приблизительно равен (асимптотически ).N ( N p , N p ( 1 - p ) ) z = X - N pXN(Np,Np(1p))z=XNpNp(1p)z2=(XNp)2Np(1p)χ12χ12

Заметь

i=12(OiEi)2Ei=[XNp]2Np+[(NX)(NNp)]2N(1p)=[XNp]2Np+[XNp]2N(1p)=(XNp)2[1Np+1N(1p)] .

Но

1Np+1N(1p)=Np+N(1p)Np.N(1p)=1Np(1p) .

Итак, есть мы начали с - которая асимптотически будет случайной величиной . Зависимость между двумя ячейками такова, что, помощью вместо мы точно компенсируем зависимость между двумя и получаем исходную квадратную величину приблизительно нормальной случайной величины.i=12(OiEi)2Ei=(XNp)2Np(1p)z2χ12EiEi(1pi)

О том же виде зависимости от суммы тот же подход, когда существует более двух категорий - путем суммирования вместо по всем слагаемым, вы точно компенсируете влияние зависимости и получаете сумму, эквивалентную сумме независимых нормалей.(OiEi)2Ei(OiEi)2Ei(1pi)kk1

Существует множество способов показать, что статистика имеет распределение, которое асимптотически для больших (оно рассматривается в некоторых курсах по бакалавриату по статистике и может быть найдено в ряде текстов на уровне бакалавриата), но я не хочу выводить вас слишком далеко за пределы уровня, который предлагает ваш вопрос. Действительно выводы легко найти в примечаниях в Интернете, например , существует два различных деривации в пространстве около двух страниц здесьχk12k

Glen_b - Восстановить Монику
источник
Спасибо, это имеет смысл. Является ли это математическим совпадением / случайностью, что так хорошо получается просто делить на ожидаемое значение? или есть интуитивное статистическое объяснение, почему это должно иметь место.
Тот
Есть несколько объяснений, которые могут быть или не быть интуитивно понятными, в зависимости от того, что варьируется от человека к человеку. Например, если наблюдаемые значения первоначально были независимыми переменными Пуассона, то дисперсия для фактически приведет к делению на (а Пуассон также асимптотически нормален). Если вы затем задаете общее число (как указано выше), вы получаете многочлен. Независимо от того, определяете ли вы общее значение или нет (т.е. относитесь ли вы к нему как к пуассоновскому или многочленовому), оценка ML одинакова, и поэтому дисперсия этой оценки одинакова - (ctd)zEi
Glen_b -Reinstate Monica
(ctd) ... В результате вы должны разделить на и дисперсия должна получиться точно правильной. [У вас все еще есть только df.]Eik1
Glen_b
0

Одностраничная рукопись http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf, на которую ссылается пользователь @Glen_b, в конечном итоге показывает, что статистику можно переписать в виде Hotelling с ковариационным рангом = (см. уравнение 9.6). Затем мы можем ссылаться на классический результат SJ Sepanski (1994), чтобы получить его асимптотическое распределение в виде хи-квадрат с степенями свободы.T2k1k - 1k1

dohmatob
источник