Почему в тесте независимости используется распределение хи-квадрат?

12

В тесте на соответствие критерия используется следующая статистика : В тесте предоставление этого условия выполнены, как используются - распределение для вычисления р-значение, учитывая правда можно было бы наблюдать такое значение в репрезентативной выборке одного и того же размера.χ2

χ02=i=1n(OiEi)2Ei
χ2H0

Однако для того, чтобы статистика следовала за -распределением (с степенями свободы), должно быть верно, что: для независимого, стандартного нормального ( Википедия ). Условия для теста следующие (опять же из Википедии ):χ02χ2n1

i=1n(OiEi)2Ei=i=1n1Zi2
Zi
  1. Выборочный представитель населения
  2. Большой размер выборки
  3. Ожидаемое количество клеток достаточно велико
  4. Независимость между каждой категорией

Из условий (1,2) ясно, что мы удовлетворяем условиям вывода выборки из совокупности. (3) кажется необходимым предположением, потому что дискретный счет , который находится в знаменателе, не приводит к почти непрерывному распределению для каждого и если оно недостаточно велико, существует ошибка, которую можно исправить с помощью Yates Поправка - это, кажется, из того факта, что дискретное распределение в основном является «непрерывным» непрерывным, поэтому сдвиг на для каждого исправляет это.EiZi1/2

Необходимость (4), кажется, пригодится позже, но я не вижу, как.

Сначала я подумал, что необходимо, чтобы статистика соответствовала распределению. Это привело меня к сомнительному предположению, чтоZi=OiEiEi, что было действительно неправильно. Фактически, из уменьшения размерности для двух сторон равенства сnдоn-1ясно,что это не может быть так.OiEiN(0,Ei)nn1

Благодаря объяснениям Уобера стало очевидно, что не должен равняться каждому O i - E iZi потому чтоχ20=n-1i=1Z2i(обратите внимание на уменьшение количества суммируемых переменных) для стандартных нормальных случайных величинZi,которые являютсяфункциональнонезависимымиOiEiEiχ02=i=1n1Zi2Zi

Мой вопрос , следовательно , как следовать за распределением χ 2 ? Какие виды комбинаций каждого из ( O i - E i ) 2χ02χ2Термины E i приводят к квадрату стандартных нормалейZ 2 i ? Это требует использования CLT, по-видимому (и это имеет смысл), но как? Другими словами, что каждыйZiравен (или приблизительно равен)?(OiEi)2EiZi2Zi

VF1
источник
1
Мне любопытно, когда ты читаешь, что кто-то предполагает последнее, что ты сказал ( ). В этом нет необходимости:статистикаχ2может иметьраспределениеχ2(по крайней мере, в очень хорошем приближении) без какого-либо из этих стандартизованных остатков, имеющих нормальное распределение. Вопросвыкажется, хотятчтобы спросить,как оправдать эти предположения отсылаяχ2статистики кй2распределению? Сами по себеони этого не делают. Для обсуждения того, что может пойти не так, см. Мой пост наstats.stackexchange.com/a/17148. OiEiN(0,Ei)χ2χ2χ2χ2
whuber
1
Из равенства двух сумм квадратов нельзя сделать вывод, что квадратные корни равны по терминам! Поскольку это относится к простым числам, это, безусловно, относится и к случайным переменным.
whuber
1
Для того, чтобы сделать этот бетон, предположим , что являются независимо друг от друга , распространяемого с рентгеновское распределения , имеющие степеней свободы ν 1 , ν 2 , ... , N , п и что v , 1 + ν 2 + + v , п = n - 1, но ν i1 для всех i(Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1i, Тогда, хотя ни один из является нормальным, тем не менее, имеет . Wii=1nWi2χ2(n1)
whuber
1
Если под «стандартным квадратом нормали» вы подразумеваете «сумму независимых квадратов стандартных нормалей», то я полагаю, что этот вопрос вы действительно хотели задать с самого начала :-). И, наконец, большинство анализов ситуации действительно вызывают Центральную предельную теорему, чтобы доказать, что стандартизированные невязки асимптотически являются стандартными нормальными (но не совсем независимыми, поэтому степени свободы равны а не ). n1n
whuber
1
+1 за то, что я ожидаю, скоро станет очень хорошим вопросом. Первая проблема - проверка независимости не использует заявленную статистику. Статистика, приведенная в начале, является одномерной (сумма по категориям), в то время как для проверки независимости требуется более одной переменной. Пожалуйста, отредактируйте, чтобы название теста соответствовало статистике. n
Glen_b

Ответы:

6

Это о распределении Пуассона. Если - Пуассон со средним значением , то дисперсия равна . Это означает, что является подобной сущностью. По CLT, Пуассон стремится к норме, так как среднее становится большим, и именно здесь приходит хи-квадрат. Да, это асимптотический тест.XλXλ

(Xλ)2λ
z2

Степени свободы взяты из теоремы Кохрана. По сути, Кокран объясняет, как хи-квадрат преобразуется (или остается неизменным), подвергаясь линейному преобразованию в баллов.z2

izi2=ZIZ

в матричной записи. Если вместо вычисления обычную сумму квадратов, вы вычисляете для некоторой матрицы Q, то вы все равно получите величину с аа распределения хи-квадрат, но степени свободы теперь ранг . На матрице Q есть больше условий, но это суть.

ZQZ
Q

Если вы с некоторыми матричными обозначениями, вы можете выразить в виде квадратичной формы. Cochran предполагает независимость от исходных нормальных переменных, поэтому столбцы таблицы показателей также должны быть независимыми.

i(ziz¯)2
Placidia
источник
Извините, но вы определенно потеряли меня в «Если вместо этого вы делаете ...»
VF1
@ VF1, я внес изменения, поэтому надеюсь, что это будет более понятно. Теорема Кокрейна является ответом на ваш вопрос о том, когда сумма квадратов с нормалями в ней имеет распределение хи-квадрат.
Плацидия
1
Хорошо, я посмотрю на это. Я оставлю вопрос открытым, однако, на случай, если кому-то еще есть что добавить.
VF1
1
Обычно размер выборки фиксирован. Это означает, что невозможно, чтобы любая из записей могла следовать распределению Пуассона. Таким образом, обращение к распределению Пуассона выглядит как еще одно приближение - и, кажется, оставляет нас там, где мы начали.
whuber
1

χ2

Zi=OiEiEi

OiEi(StandardErrorOfTheObserved)

Далее в учебнике говорится, что лучше оценить по , поэтому термин становится . Учебник на самом деле не объясняет, почему такая замена является приемлемой, и я также хотел бы выяснить.(StandardErrorOfTheObserved)EiZi=OiEiEi

В любом случае, вы можете создать тестовую статистику вида

Z=|Z1|+|Z2|+|Z3|+...

но все квадраты лучше возводить в квадрат, потому что вы сразу получаете положительные значения, а более высокие значения выделяются больше после возведения в квадрат. Таким образом, вы получаете следующее:

χ2=Z12+Z22+Z32+...

Но я не знаю, почему эта сумма должна следовать за , или какова связь с определением распределения (сумма квадратов стандартных нормальных независимых переменных).χ2χ2

РЕДАКТИРОВАТЬ: я все еще изучаю статистику, и я все еще не думаю, что я правильно понимаю тест . Я надеюсь, что другие тоже могут просветить меня.χ2

CamilB
источник