Я пытался подогнать данные одного временного ряда (без повторов), используя регрессионную модель. Данные выглядят следующим образом:
> xx.2
value time treat
1 8.788269 1 0
2 7.964719 6 0
3 8.204051 12 0
4 9.041368 24 0
5 8.181555 48 0
6 8.041419 96 0
7 7.992336 144 0
8 7.948658 1 1
9 8.090211 6 1
10 8.031459 12 1
11 8.118308 24 1
12 7.699051 48 1
13 7.537120 96 1
14 7.268570 144 1
Из-за отсутствия дубликатов я рассматриваю время как непрерывную переменную. Колонка «Лечить» показывает данные случая и контроля соответственно.
Сначала я подгоняю модель «значение = время * лечить» с помощью «lm» в R
:
summary(lm(value~time*treat,data=xx.2))
Call:
lm(formula = value ~ time * treat, data = xx.2)
Residuals:
Min 1Q Median 3Q Max
-0.50627 -0.12345 0.00296 0.04124 0.63785
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.493476 0.156345 54.325 1.08e-13 ***
time -0.003748 0.002277 -1.646 0.1307
treat -0.411271 0.221106 -1.860 0.0925 .
time:treat -0.001938 0.003220 -0.602 0.5606
Ценность времени и удовольствия не имеет значения.
Хотя с anova я получил разные результаты:
summary(aov(value~time*treat,data=xx.2))
Df Sum Sq Mean Sq F value Pr(>F)
time 1 0.7726 0.7726 8.586 0.0150 *
treat 1 0.8852 0.8852 9.837 0.0106 *
time:treat 1 0.0326 0.0326 0.362 0.5606
Residuals 10 0.8998 0.0900
Ценность времени и удовольствия изменилась.
С линейной регрессией, если я прав, это означает, что время и удовольствие не оказывают существенного влияния на ценность, но с ANOVA это означает, что время и удовольствие оказывают существенное влияние на ценность.
Может ли кто-нибудь объяснить мне, почему есть разница в этих двух методах, и какой использовать?
lm
иaov
сможете проверить, что они дают одинаковые результаты; например, сравните их остатки сresiduals
функцией или проверьте их коэффициенты ($coefficients
интервал в обоих случаях).Ответы:
Подход для lm () и aov () идентичны, но отчетность отличается. T-тесты - это предельное влияние рассматриваемых переменных, учитывая наличие всех других переменных. F-тесты являются последовательными - поэтому они проверяют важность времени в присутствии ничего, кроме перехвата, обработки в присутствии ничего, кроме перехвата и времени, и взаимодействия в присутствии всего вышеперечисленного.
Предполагая, что вы заинтересованы в значении лечения, я предлагаю вам сравнить две модели, одну с, а другую без, сравнить две, поместив обе модели в anova (), и использовать этот F-тест. Это будет проверять удовольствие и взаимодействие одновременно.
Учтите следующее:
источник
aov
.Ответ Питера Эллиса превосходен, но есть еще одно замечание. -test статистика (и его -значение) является испытанием ли . -test на распечатке , является ли значительно снижает добавленный переменная остаточную сумму квадратов.p β = 0 FT п β= 0 F
anova()
-test заказать независимый, в то время как -test нет. Отсюда и предложение Питера попробовать переменные в разных порядках. Также возможно, что переменные, значимые в одном тесте, могут не быть значимыми в другом (и наоборот).FT F
Я чувствую (и другие участники могут поправить меня), что когда вы пытаетесь предсказать явления (как в системном приложении), вы больше всего заинтересованы в уменьшении дисперсии с наименьшим количеством предикторов и, следовательно, хотите получитьИкс Y β
anova()
результаты. Однако, если вы пытаетесь установить предельное влияние на , вас больше всего заинтересует значение вашей конкретной , и все остальные переменные будут просто контролировать альтернативные объяснения, которые ваши коллеги-рецензенты попытаются найти.y βисточник
Приведенные выше два ответа великолепны, но я подумал, что добавлю немного больше. Другой кусок информации можно почерпнуть отсюда .
Когда вы сообщаете о
lm()
результатах с помощью термина взаимодействия, вы говорите что-то вроде: «лечения 1 отличается от лечения 0 (бета! = 0, р = 0,0925), когда время установлено на базовое значение 1 ». Принимая во внимание, чтоanova()
результаты ( как упомянуто ранее ) игнорируют любые другие переменные и касаются только различий.Вы можете доказать это, удалив член взаимодействия и используя простую модель только с двумя основными эффектами ( m1 ):
В этом случае мы видим, что сообщаемые значения p одинаковы; это потому, что в случае этой более простой модели,
источник
summary(lm)
иanova(lm)
не всегда будет давать идентичный результат, если отсутствует термин взаимодействия. Так уж получилось, что в этих данныхtime
иtreat
они ортогональны и поэтому суммы квадратов типа I (последовательные) и III (предельные) дают одинаковые результаты.ПРОБЛЕМА РЕПРОДУКЦИИ
НЕКОТОРЫЕ МОДЕЛИ, ИСПОЛЬЗУЕМЫЕ В ОБЪЯСНЕНИИ
КАК LM T_TEST работает и имеет отношение к F-TEST
КАК AOV РАБОТАЕТ И ВЫБИРАЕТ DF В F-ТЕСТАХ
ВАЖНАЯ ЗАМЕТКА
источник