У меня есть перекрестные данные в таблице 2 x 2 x 6. Давайте назовем размеры response
, A
и B
. Я подгоняю логистическую регрессию к данным с помощью модели response ~ A * B
. Анализ отклонения этой модели говорит о том, что оба термина и их взаимодействие являются значительными.
Однако, глядя на пропорции данных, кажется, что только 2 или около того уровня B
ответственны за эти существенные эффекты. Я хотел бы проверить, какие уровни являются виновниками. Прямо сейчас мой подход состоит в том, чтобы выполнить 6 тестов хи-квадрат на 2 x 2 таблицах response ~ A
, а затем скорректировать значения p из этих тестов для множественных сравнений (используя корректировку Холма).
У меня вопрос, есть ли лучший подход к этой проблеме. Существует ли более принципиальный подход к моделированию или метод сравнения нескольких хи-квадрат тестов?
Ответы:
Вы должны посмотреть на «разделение ци-квадрат». По логике это похоже на выполнение специальных тестов в ANOVA. Это позволит вам определить, относится ли ваш значимый общий тест в первую очередь к различиям в отдельных категориях или группах категорий.
Быстрый гугл включил эту презентацию, которая в конце обсуждает методы разбиения хи-квадрат.
http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/2way_chi-ha-online.pdf
источник
Беспринципный подход заключается в отбрасывании несоразмерных данных, переоснащении модели и проверке, сильно ли отличаются логит / условные коэффициенты для ответа и A (с учетом B). Это может сказать вам, есть ли повод для беспокойства. Объединение уровней B - другой подход. Если говорить более принципиально, если вы беспокоитесь об относительных пропорциях, порождающих парадокс Симпсона, то вы можете взглянуть на условные и маргинальные отношения шансов для ответа / A и посмотреть, не переставят ли они.
В частности, чтобы избежать множественных сравнений, единственное, что приходит мне в голову, - это использовать иерархическую модель, которая учитывает случайные эффекты на разных уровнях.
источник
Я не знаю точно, каковы ваши цели или почему они такие, какие они есть. Но вместо проверки гипотез я обычно рекомендую сосредоточить внимание на предсказаниях и доверительных интервалах.
источник
Post Hoc тест может соответствовать вашей проблеме. Функция chisqPostHoc () в R тестирует значительные различия между всеми парами популяций в тесте хи-квадрат. Хотя я этим не пользуюсь, но эта ссылка может быть полезной. https://www.rforge.net/doc/packages/NCStats/chisqPostHoc.html
Другой альтернативой может быть функция chisq.desc () из пакета EnQuireR.
источник