Коллинеарность между категориальными переменными

11

Есть много о коллинеарности в отношении непрерывных предикторов, но не так много, что я могу найти в категориальных предикторах. У меня есть данные этого типа, показанные ниже.

Первый фактор - это генетическая переменная (количество аллелей), второй фактор - категория заболевания. Ясно, что гены предшествуют заболеванию и являются фактором, демонстрирующим симптомы, которые приводят к постановке диагноза. Однако регулярный анализ с использованием сумм квадратов типа II или III, как это обычно делается в психологии с SPSS, пропускает эффект. Анализ сумм квадратов типа I поднимает его, когда вводится соответствующий порядок, поскольку он зависит от порядка. Кроме того, есть вероятность наличия дополнительных компонентов в процессе заболевания, которые не связаны с геном, который недостаточно хорошо идентифицирован с типом II или III, см. Anova (lm1) ниже по сравнению с lm2 или Anova.

Пример данных:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")
  1. lm1 с SS типа I мне кажется подходящим способом для анализа данных с учетом исходной теории. Правильно ли мое предположение?
  2. Я привык явно манипулировать ортогональными конструкциями, где эти проблемы обычно не появляются. Сложно ли убедить рецензентов, что это лучший процесс (если точка 1 верна) в контексте поля, ориентированного на SPSS?
  3. А что сообщать в разделе статистики? Любой дополнительный анализ, или комментарии, которые должны войти?
Мэтт Альбрехт
источник
Удивительно слышать, что кто-то, использующий SPSS, знает только SS типа III или II. И ты так говоришь.
ttnphns
2
Ну, у меня был тот же пробел в знаниях, о котором я говорю в своем вопросе. Кажется, это скорее отражение интересов людей, их знаний и того, как они знакомятся с программным обеспечением, а не с самим программным обеспечением. Но параметры по умолчанию также играют большую роль, поскольку в SPSS используется параметр III типа по умолчанию.
Мэтт Альбрехт
Похоже, вы говорите, что у вас есть способ ввести 2 предиктора в определенном порядке, используя процедуру anova SPSS (unianova?). Я знаю только способ указать порядок, переключившись на процедуру регрессии. Как вы этого достигнете?
rolando2

Ответы:

8

Коллинеарность между факторами довольно сложна. Классическим примером является тот, который вы получаете, когда вы группируете и фиктивно кодируете три непрерывные переменные: «возраст», «период» и «год». Анализируется в:

Коэффициенты, которые вы получаете, после удаления четырех (не трех) ссылок, идентифицируются только до неизвестного линейного тренда. Это можно проанализировать, поскольку коллинеарность возникает из-за известной коллинеарности в исходных переменных (возраст + год = период).

Также была проделана определенная работа по ложной коллинеарности между двумя факторами. Это было проанализировано в:

В результате коллинеарность среди категориальных переменных означает, что набор данных должен быть разбит на несвязанные части с опорным уровнем в каждом компоненте. Расчетные коэффициенты от разных компонентов нельзя сравнивать напрямую.

Для более сложных коллинеарностей между тремя или более факторами ситуация является сложной. Существуют процедуры для нахождения оцениваемых функций, то есть линейных комбинаций коэффициентов, которые можно интерпретировать, например, в:

  • «О связности конструкций ряд-столбец» Годолфина и Годолфина в Utilitas Mathematica (60), стр. 51-65.

Но, насколько мне известно, не существует общей серебряной пули для интуитивного обращения с такими коллинеарностями.

Симен Гауре
источник
1

После того, как поболтали с некоторыми из людей по статистике вокруг места. Похоже, что этот вопрос не самый правильный ответ. Использование ANOVA (или аналогичных методов) для исследования генетических и диагностических взаимодействий на нейропсихологических показателях, когда они сильно коррелированы, является сложным вопросом. Вместо этого мне было предложено изучить структуру данных с помощью моделирования структурных уравнений.

Этот ответ будет обновляться по мере того, как я узнаю больше о SEM.

Мэтт Альбрехт
источник