После недавнего отрицательного голосования я пытался проверить свое понимание теста Пирсона Чи в квадрате. Я обычно использую статистику хи-квадрат (или уменьшенную статистику хи-квадрат) для подгонки или проверки результирующей подгонки. В этом случае дисперсия обычно представляет собой не ожидаемое количество отсчетов в таблице или гистограмме, а некоторую экспериментально определенную дисперсию. В любом случае, у меня всегда было впечатление, что в тесте все еще используется асимптотическая нормальность полиномиального PDF (т.е. моя статистика теста
и асимптотически мультинормальна, где - ковариационная матрица). Следовательно, имеет распределение хи-квадрат при больших поэтому использование ожидаемого количества отсчетов в качестве знаменателя в статистике становится действительным для больших . Вполне возможно, что это верно только для гистограмм, я не анализировал небольшую таблицу данных в течение многих лет.
Есть ли более тонкий аргумент, который я пропускаю? Мне было бы интересно получить ссылку или, еще лучше, краткое объяснение. (Хотя это возможно, я только что проголосовал за то, что пропустил слово «асимптотика», что, я признаю, довольно важно.)
источник
Ответы:
Тест хи-квадрат предназначен для анализа категориальных данных. Это означает, что данные были подсчитаны и разделены на категории. Он не будет работать с параметрическими или непрерывными данными. Так что это не работает, чтобы определить результирующее соответствие в каждом случае.
Источник: http://www.ling.upenn.edu/~clight/chisquared.htm
источник