Как Карл Пирсон придумал статистику хи-квадрат?

14

Как Пирсон придумал следующую статистику хи-квадрат Пирсона в 1900 году?

что Kχ2

K=(OijEij)2Eij
Kχ2

Имел ли он в виду хи-квадрат и разрабатывал метрику (подход снизу вверх), или он придумывал статистику и позже доказывал, что она следует распределению хи-квадрат (сверху вниз)?K

Я хочу знать, почему он выбрал именно эту форму, а не другие, такие как или | O i j - E i j | , а также почему он разделил квадрат со знаменателем.(OijEij)2|OijEij|

Alby
источник
1
Конечно, возможно иметь любое количество статистики, которую вы можете использовать. Ваши альтернативы совершенно хороши, хотя для них вам нужно будет определить распределение выборки, которое будет различаться в зависимости от количества ячеек. Одной вещью, которая удобна в этой форме, является то, что она имеет определенные отношения с другими распределениями, например, это распределение суммы k квадратов стандартных нормальных случайных величин.
gung - Восстановить Монику

Ответы:

23

Статья Пирсона 1900 года не защищена авторским правом, поэтому мы можем прочитать ее онлайн .

Вы должны начать с того, что отметили, что эта статья посвящена проверке качества, а не проверке независимости или однородности.

Он продолжает работать с многовариантной нормалью, и хи-квадрат возникает как сумма квадратов стандартизированных нормальных вариаций.

Вы можете увидеть из обсуждения на p160-161, что он явно обсуждает применение теста к многочленовым распределенным данным (я не думаю, что он использует этот термин где-либо). Он, очевидно, понимает приблизительную многомерную нормальность полинома (конечно, он знает, что поля приблизительно нормальны - это очень старый результат - и знает средства, дисперсии и ковариации, поскольку они указаны в статье); Я предполагаю, что к 1900 году большая часть этого материала уже устарела (обратите внимание, что само распределение хи-квадрат восходит к работе Гельмерта в середине 1870-х годов.)

Затем в нижней части p163 он выводит статистику хи-квадрат как «меру соответствия» (сама статистика появляется в показателе многомерного нормального приближения).

Затем он продолжает обсуждать, как оценить p-значение *, и затем он правильно дает верхнюю хвостовую область χ122 за пределами 43,87 как 0,000016. [Вы должны помнить, однако, что он не правильно понял, как регулировать степени свободы для оценки параметров на этом этапе, поэтому некоторые примеры в его работах используют слишком высокое значение df]

* (обратите внимание, что ни парадигмы тестирования Фишера, ни Неймана-Пирсона не существует, мы, тем не менее, ясно видим, что он уже применяет концепцию p-значения.)

(OiEi)2/Eim1m2m1e=mme2/m

Большая часть нынешнего способа понимания критерия хи-квадрат еще не на месте, но, с другой стороны, уже есть немало (по крайней мере, если вы знаете, что искать). Многое произошло в 1920-х (и далее), которые изменили наш взгляд на эти вещи.


EiEiEi


Добавлено в правку:

В статье 1983 года, написанной Пакеттом, содержится много исторического контекста и что-то вроде руководства к статье. Я настоятельно рекомендую взглянуть на это. Похоже, что он бесплатный онлайн через JStor (если вы входите в систему), поэтому вам даже не нужен доступ через учреждение для его чтения.

Plackett, RL (1983),
«Карл Пирсон и критерий хи-квадрат»,
International Statistical Review ,
Vol. 51, № 1 (апрель), с. 59-72

Glen_b - Восстановить Монику
источник
1
Я просто перечитал этот пост, и каждый раз, когда я делаю, я получаю дополнительное понимание. @Glen_b Я хочу поблагодарить вас за отличный ответ, который я должен был сделать раньше. Если я могу задать дополнительный вопрос, в своем объяснении того, как деление на E корректирует ковариацию, можете ли вы подробнее остановиться на этом или указать мне ресурс, который обсуждает этот момент? Я могу интуитивно понять, почему «нормализация» необходима, но я хочу подкрепить свою интуицию математическим доказательством.
Алби
1
Ei . Похоже, что в конце вы преследуете что-то еще, но если вы, я не совсем уверен, что это такое. Вы можете перефразировать это?
Glen_b
1
XiCov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)=E(Xi)E(Xj)Xi,Xj>0Cov(Oi,Oj)
Спасибо за ссылку @Glen_b. После прочтения поста, теперь стало намного понятнее! Я наивно думал, что знаменатель существует для того, чтобы скорректировать начальные различия для каждой ячейки, таким образом, термин «нормализация», но, читая ваш пост, я понял, что совершенно не в порядке.
Алби,
К сожалению, слово «нормализовать» имеет как минимум три разных значения, относящихся к статистике. Без прикрас я обычно использовал бы его для обозначения «стандартизировать для обозначения 0 и стандартного отклонения 1», но другие люди используют его для обозначения «нормализовать» в смысле нормализации вектора согласно некоторой норме или даже для преобразования в приближенную нормальность. Поскольку это такой багбир здесь, я должен знать, чтобы избежать этого.
Glen_b