Итак, прежде всего, я провел некоторое исследование на этом форуме, и я знаю, что были заданы чрезвычайно похожие вопросы, но на них обычно не отвечали должным образом, или иногда ответ просто не был достаточно подробным, чтобы я мог понять. Итак, на этот раз мой вопрос: у меня есть два набора данных, на каждом я делаю полиномиальную регрессию следующим образом:
Ratio<-(mydata2[,c(2)])
Time_in_days<-(mydata2[,c(1)])
fit3IRC <- lm( Ratio~(poly(Time_in_days,2)) )
Графики полиномиальной регрессии:
Коэффициенты:
> as.vector(coef(fit3CN))
[1] -0.9751726 -4.0876782 0.6860041
> as.vector(coef(fit3IRC))
[1] -1.1446297 -5.4449486 0.5883757
И теперь я хочу знать, есть ли способ использовать функцию R для выполнения теста, который бы сообщал мне, есть ли статистическая значимость в разнице между двумя регрессиями полиномов, зная, что соответствующий интервал дней равен [ 1100].
Из того, что я понял, я не могу применить тест anova напрямую, потому что значения получены из двух разных наборов данных или из AIC, который используется для сравнения данных модели / истинных данных.
Я пытался следовать инструкциям, данным @Roland в соответствующем вопросе, но, вероятно, что-то неправильно понял, глядя на мои результаты:
Вот что я сделал:
Я объединил оба моих набора данных в один.
f
переменный фактор, о котором говорил @Roland. Я поставил 1 для первого сета и 0 для другого.
y<-(mydata2[,c(2)])
x<-(mydata2[,c(1)])
f<-(mydata2[,c(3)])
plot(x,y, xlim=c(1,nrow(mydata2)),type='p')
fit3ANOVA <- lm( y~(poly(x,2)) )
fit3ANOVACN <- lm( y~f*(poly(x,2)) )
Мои данные теперь выглядят так:
Красный, fit3ANOVA
который все еще работает, но у меня есть проблема с синим, fit3ANOVACN
у модели странные результаты. Я не знаю, верна ли подходящая модель, я не понимаю, что именно имел в виду @Roland.
Рассматривая решение @DeltaIV, я полагаю, что в этом случае: модели значительно отличаются, даже если они перекрываются. Правильно ли я так предполагаю?
Ответы:
Как видите,
fit1
значительно лучше, чемfit0
, то есть влияние группирующей переменной является значительным. Так как переменная группировки представляет соответствующие наборы данных, полиномиальные соответствия для двух наборов данных могут считаться существенно различными.источник
Ответ @Ronald 's является лучшим и широко применим ко многим подобным проблемам (например, есть ли статистически значимая разница между мужчинами и женщинами в отношениях между весом и возрастом?). Тем не менее, я добавлю другое решение, которое, хотя и не так количественно (оно не обеспечивает p- значение), дает хорошее графическое отображение разницы.
РЕДАКТИРОВАТЬ : в соответствии с этим вопросом , похоже
predict.lm
, что функция, используемаяggplot2
для вычисления доверительных интервалов, не вычисляет одновременные доверительные полосы вокруг кривой регрессии, а только точечные доверительные полосы. Эти последние полосы не являются правильными для оценки того, являются ли две подобранные линейные модели статистически различными или, по-другому, могут ли они быть совместимы с одной и той же истинной моделью или нет. Таким образом, они не являются правильными кривыми, чтобы ответить на ваш вопрос. Поскольку, по-видимому, нет встроенной функции R для получения одновременных доверительных интервалов (странно!), Я написал свою собственную функцию. Вот:Внутренние полосы - это те, которые рассчитываются по умолчанию
geom_smooth
: это точечные 95% доверительные полосы вокруг кривых регрессии. Внешние, полупрозрачные полосы (спасибо за графический совет, @Roland) вместо этого представляют собой одновременные 95% доверительные полосы. Как вы можете видеть, они больше, чем точечные полосы, как и ожидалось. Тот факт, что одновременные доверительные интервалы на двух кривых не перекрываются, можно считать показателем того, что различие между двумя моделями является статистически значимым.Конечно, для проверки гипотезы с действительным p-значением следует придерживаться подхода @Roland, но этот графический подход можно рассматривать как анализ поисковых данных. Также сюжет может дать нам дополнительные идеи. Понятно, что модели для двух наборов данных статистически различны. Но похоже, что две модели степени 1 будут соответствовать данным почти так же хорошо, как две квадратичные модели. Мы можем легко проверить эту гипотезу:
Разница между моделью степени 1 и моделью степени 2 незначительна, поэтому мы также можем использовать две линейные регрессии для каждого набора данных.
источник