Остатки Пирсона

Вопрос новичка об остатке Пирсона в контексте теста хи-квадрат на соответствие формы:

Помимо статистики теста, chisq.testфункция R сообщает об остатке Пирсона:

(obs - exp) / sqrt(exp)

Я понимаю, почему смотреть на необработанную разницу между наблюдаемыми и ожидаемыми значениями не так информативно, так как меньшая выборка приведет к меньшей разнице. Однако я хотел бы узнать больше о влиянии знаменателя: зачем делить на корень ожидаемого значения? Это «стандартизированный» остаток?

chi-squared goodness-of-fit residuals Йен Диллингем
источник

Знаменатель используется для учета дисперсии необработанных остатков, которая затем делает остатки Пирсона приблизительно единичными отклонениями (существуют другие методы для достижения этой цели). Обратите внимание, что есть компонент stdresдля стандартизированных остатков.

ЧЛ

@chl Спасибо за ваш быстрый ответ. Однако я не понимаю концепцию дисперсии в этом контексте. Знаете ли вы какие-либо ресурсы, где я мог бы узнать больше? Я предполагаю, что остаток Пирсона не «стандартизирован», учитывая, что он chisq.testтакже вычисляет stdresкомпонент?

Иан Диллингем

Окончательной ссылкой на анализ категориальных данных, вероятно, является Категориальный анализ данных , Алан Агрести. Если никто не предоставит более подробный ответ, я постараюсь преобразовать мои комментарии в правильный ответ.

ЧЛ

Спасибо за ссылку, @chl. У меня есть доступ к книге, поэтому я постараюсь выяснить это сам.

Иан Диллингем

Ответы:

Стандартная статистическая модель, лежащая в основе анализа таблиц сопряженности, заключается в допущении, что (безоговорочно по общему количеству) число ячеек является независимой пуассоновской случайной величиной. Так что если у вас есть $n \times m$ таблица непредвиденных обстоятельств , статистическая модель, используемая в качестве основы для анализа, учитывает, что у каждого количества ячеек есть безусловное распределение:

{Икс}_{я, J} ~ Pois (μ_{я, J})

$X_{i,j} \text{ ~ Pois}(\mu_{i,j})$

После того, как вы наложите общее количество ячеек для таблицы сопряженности или число строк или столбцов, результирующие условные распределения количества ячеек станут многочленными. В любом случае для распределения Пуассона $\mathbb{E}(X_{i,j}) = \mathbb{V}(X_{i,j}) = \mu_{i,j}$ , поэтому стандартизированное число ячеек равно:

STD ({Икс}_{я, J}) \equiv \frac{{Икс}_{я, J} - Е ({Икс}_{я, J})}{\sqrt{В ({Икс}_{я, J})}} знак равно \frac{{Икс}_{я, J} - μ_{я, J}}{\sqrt{μ_{я, J}}}

$\text{STD}(X_{i,j}) \equiv \frac{X_{i,j} - \mathbb{E}(X_{i,j})}{\sqrt{\mathbb{V}(X_{i,j})}} = \frac{X_{i,j} - \mu_{i,j}}{\sqrt{\mu_{i,j}}}$

Итак, в формуле, о которой вы спрашиваете, вы видите стандартизированное число ячеек в предположении, что число ячеек имеет (безусловное) распределение Пуассона.

Отсюда обычно тестируют независимость переменной строки и столбца в данных, и в этом случае вы можете использовать тестовую статистику, которая просматривает сумму квадратов вышеуказанных значений (что эквивалентно квадрату-норме вектора стандартизированных значений). Тест хи-квадрат предоставляет значение p для этого вида теста на основе приближения большой выборки к нулевому распределению статистики теста. Обычно применяется в случаях, когда ни один из показателей продаж не является слишком маленьким.

Восстановить Монику
источник

В контексте хорошего соответствия вы можете обратиться к этому http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm .

Если вы хотите знать, как появился знаменатель, вам придется рассматривать хи-квадрат здесь как нормальное приближение к биному, для начала, которое затем можно распространить на многочлены.

RYL
источник