Я преподаю базовый курс статистики, и сегодня я рассмотрю критерий независимости по критерию хи-квадрат для двух категорий и критерий однородности. Эти два сценария концептуально различны, но могут использовать одну и ту же статистику теста и распределение. В тесте на однородность предполагается, что предельные итоги для одной из категорий являются частью самого проекта - они представляют количество субъектов, выбранных для каждой экспериментальной группы. Но поскольку критерий хи-квадрат вращается вокруг обусловленности всех предельных итогов, нет никаких математических последствий для различия между тестами однородности и тестами независимости с категориальными данными - по крайней мере, ни один из них при использовании этого теста.
Мой вопрос заключается в следующем: существует ли какая-либо школа статистического мышления или статистического подхода, которая дала бы различные анализы, в зависимости от того, проверяем ли мы на независимость (где все маргиналы являются случайными переменными) или тест на однородность (где один набор маргиналов установить по дизайну)?
В непрерывном случае, скажем, где мы наблюдаем по одному и тому же предмету, и проверяем на независимость, или наблюдаем в разных популяциях и проверяем, происходят ли они из одного распределения, метод отличается (корреляция анализ против t-критерия). Что если категориальные данные получены из дискретных непрерывных переменных? Должны ли критерии независимости и однородности быть неразличимыми?
Ответы:
При независимости, как и при однородности, вы предполагаете, что все отношения шансов равны 1. То есть вероятность ответа «да» условию одинаково вероятна независимо от группового распределения. Если эти предположения не верны, по крайней мере одна группа отличается.
Однако различия возникают, когда мы рассматриваем природу группирующего фактора. В этом смысле важное значение имеет контекстное применение теста, точнее, его названия. Группа может быть прямой причиной результата, например, наличия или отсутствия гена или аллельных паттернов признака, и в случае, когда мы отвергаем ноль, мы заключаем, что результат зависит от рассматриваемого фактора группировки.
С другой стороны, когда мы проверяем однородность, мы освобождаем себя от любых причинных предположений. Таким образом, когда «группа» представляет собой сложную конструкцию, подобную расе (которая вызывает и обусловлена генетическими, поведенческими и социально-экономическими детерминантами), мы можем сделать такие выводы, как «расово-этнические меньшинства испытывают неравенство в жилищном секторе, о чем свидетельствует неоднородность индекса депривации соседства» , Если бы кто-то возразил на такой аргумент, сказав: «Ну, это потому, что меньшинства достигают более низкого образования, зарабатывают меньший доход и получают меньше работы», вы могли бы сказать: «Я не утверждал, что их раса вызвала эти вещи, просто если вы посмотрите в своей гонке вы можете делать прогнозы об их жизненном положении ".
Таким образом, тесты зависимости являются частным случаем тестов на однородность, где возможное влияние скрытых факторов представляет интерес и должно быть рассмотрено в стратифицированном анализе. Использование многомерной корректировки в аналогичной модели логистической регрессии позволяет достичь такой цели, и мы все еще можем сказать, что проводим тест зависимости, но не обязательно однородности.
источник
Существует четкое различие между этими двумя проблемами, если вы смоделируете их байесовским способом. В некоторых работах первый случай (однородность) называется выборкой с «фиксированным одним полем», а второй случай (независимость) - «фиксированной общей таблицей». Посмотрите, например, на Casella et al. (JASA 2009) .
Я работаю над этой темой, но моя статья, которая также описывает это различие, еще не опубликована :)
источник