В тесте на соответствие критерия используется следующая статистика : В тесте предоставление этого условия выполнены, как используются - распределение для вычисления р-значение, учитывая правда можно было бы наблюдать такое значение в репрезентативной выборке одного и того же размера.
Однако для того, чтобы статистика следовала за -распределением (с степенями свободы), должно быть верно, что: для независимого, стандартного нормального ( Википедия ). Условия для теста следующие (опять же из Википедии ):
- Выборочный представитель населения
- Большой размер выборки
- Ожидаемое количество клеток достаточно велико
- Независимость между каждой категорией
Из условий (1,2) ясно, что мы удовлетворяем условиям вывода выборки из совокупности. (3) кажется необходимым предположением, потому что дискретный счет , который находится в знаменателе, не приводит к почти непрерывному распределению для каждого и если оно недостаточно велико, существует ошибка, которую можно исправить с помощью Yates Поправка - это, кажется, из того факта, что дискретное распределение в основном является «непрерывным» непрерывным, поэтому сдвиг на для каждого исправляет это.
Необходимость (4), кажется, пригодится позже, но я не вижу, как.
Сначала я подумал, что необходимо, чтобы статистика соответствовала распределению. Это привело меня к сомнительному предположению, что, что было действительно неправильно. Фактически, из уменьшения размерности для двух сторон равенства сnдоn-1ясно,что это не может быть так.
Благодаря объяснениям Уобера стало очевидно, что не должен равняться каждому O i - E i потому чтоχ20=∑n-1i=1Z2i(обратите внимание на уменьшение количества суммируемых переменных) для стандартных нормальных случайных величинZi,которые являютсяфункциональнонезависимыми
Мой вопрос , следовательно , как следовать за распределением χ 2 ? Какие виды комбинаций каждого из ( O i - E i ) 2Термины E i приводят к квадрату стандартных нормалейZ 2 i ? Это требует использования CLT, по-видимому (и это имеет смысл), но как? Другими словами, что каждыйZiравен (или приблизительно равен)?
Ответы:
Это о распределении Пуассона. Если - Пуассон со средним значением , то дисперсия равна . Это означает, что является подобной сущностью. По CLT, Пуассон стремится к норме, так как среднее становится большим, и именно здесь приходит хи-квадрат. Да, это асимптотический тест.X λ X λ
Степени свободы взяты из теоремы Кохрана. По сути, Кокран объясняет, как хи-квадрат преобразуется (или остается неизменным), подвергаясь линейному преобразованию в баллов.z2
в матричной записи. Если вместо вычисления обычную сумму квадратов, вы вычисляете для некоторой матрицы Q, то вы все равно получите величину с аа распределения хи-квадрат, но степени свободы теперь ранг . На матрице Q есть больше условий, но это суть.
Если вы с некоторыми матричными обозначениями, вы можете выразить в виде квадратичной формы. Cochran предполагает независимость от исходных нормальных переменных, поэтому столбцы таблицы показателей также должны быть независимыми.
источник
Далее в учебнике говорится, что лучше оценить по , поэтому термин становится . Учебник на самом деле не объясняет, почему такая замена является приемлемой, и я также хотел бы выяснить.(StandardErrorOfTheObserved) Ei−−√ Zi=Oi−EiEi√
В любом случае, вы можете создать тестовую статистику вида
но все квадраты лучше возводить в квадрат, потому что вы сразу получаете положительные значения, а более высокие значения выделяются больше после возведения в квадрат. Таким образом, вы получаете следующее:
Но я не знаю, почему эта сумма должна следовать за , или какова связь с определением распределения (сумма квадратов стандартных нормальных независимых переменных).χ2 χ2
РЕДАКТИРОВАТЬ: я все еще изучаю статистику, и я все еще не думаю, что я правильно понимаю тест . Я надеюсь, что другие тоже могут просветить меня.χ2
источник