У меня есть 2 зависимые переменные (DV), на каждую из которых может влиять набор из 7 независимых переменных (IV). DV являются непрерывными, в то время как набор IV состоит из смеси непрерывных и двоично-закодированных переменных. (В коде ниже непрерывные переменные пишутся заглавными буквами, а двоичные переменные строчными.)
Цель исследования - выяснить, как на эти DV влияют переменные IV. Я предложил следующую модель многомерной множественной регрессии (MMR):
my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I)
Чтобы интерпретировать результаты, я называю два утверждения:
summary(manova(my.model))
Manova(my.model)
Результаты обоих вызовов вставлены ниже и значительно отличаются. Может кто-нибудь объяснить, какое утверждение из двух следует выбрать, чтобы правильно подвести итоги результатов MMR и почему? Любое предложение будет с благодарностью.
Вывод используя summary(manova(my.model))
оператор:
> summary(manova(my.model))
Df Pillai approx F num Df den Df Pr(>F)
c 1 0.105295 5.8255 2 99 0.004057 **
d 1 0.085131 4.6061 2 99 0.012225 *
e 1 0.007886 0.3935 2 99 0.675773
f 1 0.036121 1.8550 2 99 0.161854
g 1 0.002103 0.1043 2 99 0.901049
H 1 0.228766 14.6828 2 99 2.605e-06 ***
I 1 0.011752 0.5887 2 99 0.556999
Residuals 100
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Вывод используя Manova(my.model)
оператор:
> library(car)
> Manova(my.model)
Type II MANOVA Tests: Pillai test statistic
Df test stat approx F num Df den Df Pr(>F)
c 1 0.030928 1.5798 2 99 0.21117
d 1 0.079422 4.2706 2 99 0.01663 *
e 1 0.003067 0.1523 2 99 0.85893
f 1 0.029812 1.5210 2 99 0.22355
g 1 0.004331 0.2153 2 99 0.80668
H 1 0.229303 14.7276 2 99 2.516e-06 ***
I 1 0.011752 0.5887 2 99 0.55700
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
lm
функцию, я провожу многомерную регрессию только путем указания более чем одной переменной respose внутриlm
функции. Я узнал, что использованиеlm
функции, когда мои данные на самом деле являются многомерными, дает ошибочный результат для стандартной ошибки. Но в этом случаеmy.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I);
будетvcov(my.model )
недооценивать стандартную ошибку илиlm
будет разумно корректировать корреляцию между зависимыми переменными?Ну, у меня все еще нет достаточного количества очков, чтобы комментировать предыдущий ответ, и поэтому я пишу его как отдельный ответ, поэтому, пожалуйста, извините меня. (Если возможно, пожалуйста, подтолкните меня к 50 точкам повторения;)
Итак, вот 2cents: Тестирование ошибок типа I, II и III, по сути, является вариацией из-за несбалансированности данных. (Defn Unbalanced: несоответствующее количество наблюдений в каждой из страт). Если данные сбалансированы, тесты на ошибки типа I, II и III дают точно такие же результаты.
Так что же происходит, когда данные несбалансированы?
Рассмотрим модель, которая включает в себя два фактора A и B; поэтому есть два основных эффекта и взаимодействие, AB. SS (A, B, AB) указывает на полную модель SS (A, B) указывает на модель без взаимодействия. SS (B, AB) указывает модель, которая не учитывает влияние фактора A и т. Д.
Эта запись теперь имеет смысл. Просто имейте это в виду.
Тип I, также называемый «последовательной» суммой квадратов:
1)
SS(A) for factor A.
2)
SS(B | A) for factor B.
3)
SS(AB | B, A) for interaction AB.
Таким образом, мы оцениваем основной эффект A, сначала их, эффект B с учетом A, а затем оцениваем взаимодействие AB с учетом A и B (Это где несбалансированные данные, различия вступают в силу. Когда мы оцениваем сначала основной эффект, а затем основной из других и тогда взаимодействие в «последовательности»)
Тип II:
1)
SS(A | B) for factor A.
2)
SS(B | A) for factor B.
Тип II проверяет значимость основного эффекта A после B и B после A. Почему нет SS (AB | B, A)? Предостережение заключается в том, что метод типа II может использоваться только тогда, когда мы уже проверили, что взаимодействие является незначительным. Учитывая отсутствие взаимодействия (SS (AB | B, A) незначительно) тест типа II имеет лучшую мощность по сравнению с типом III
Тип III:
1)
SS(A | B, AB) for factor A.
2)
SS(B | A, AB) for factor B.
Таким образом, мы проверили взаимодействие во время типа II, и взаимодействие было значительным. Теперь нам нужно использовать тип III, так как он учитывает термин взаимодействия.
Как уже сказал @caracal, когда данные сбалансированы, факторы ортогональны, и типы I, II и III дают одинаковые результаты. Надеюсь, это поможет !
Раскрытие: Большая часть этого не моя собственная работа. Я нашел эту превосходную страницу связанной, и мне захотелось свалить ее дальше, чтобы сделать ее проще.
источник