Как я могу использовать значение для проверки предположения о линейности в множественном регрессионном анализе?

13

Приведенные ниже графики являются графиками остаточного разброса регрессионного теста, для которого предположения о «нормальности», «гомоскедастичности» и «независимости» уже были точно соблюдены! Для проверки предположения о «линейности» , хотя, глядя на графики, можно догадаться, что отношение является криволинейным, но вопрос заключается в следующем: как можно использовать значение «R2 Linear» для проверки предположения о линейности? Каков допустимый диапазон для значения «R2 Linear», чтобы решить, является ли отношение линейным? Что делать, если предположение о линейности не выполняется и преобразование IV также не помогает? !!

Вот ссылка на полные результаты теста.

Точечные графики:

введите описание изображения здесь

введите описание изображения здесь

введите описание изображения здесь

Кир
источник
3
Судя по графикам, я вижу, что вы используете SPSS. Просто откройте график для редактирования и найдите «Add fit button button», там вы найдете несколько вариантов нелинейного рисования линий, например, Loess. Проверьте, дает ли эта опция достаточно прямую линию.
ttnphns
@ ttnphns: я добавил сюжет со строкой Лесс 2, вопрос.
Сайрус
Ну, это выглядит довольно криволинейно, не так ли? Вы можете играть больше с параметрами Loess, чтобы увидеть, что происходит. Если линия изогнута, вы можете визуально заключить, что связь не является линейной.
ttnphns
@Cyrus, я опубликовал общий ответ на этот вопрос, но собирался добавить немного толкования на ваши графики и понял, что я не совсем уверен, что оси и Y на вашем графике - вы можете уточнить? xy
Макро
@ ttnphns: да, это криволинейный. Я не знаю, как относиться к этой модели! В этом тесте (# 2) у меня есть 2 IV, которые непосредственно влияют на DV (PIT). Результат регрессии показал, что только 1 из IV значительно влияет на DV. R2 настолько низок (0,172) и линейность также низка (по крайней мере, согласно графику, когда IV находится на низких уровнях). Я не знаю, является ли этот тест приемлемым или нет! Даже я преобразовал оба IV (вычисляя их LN) и повторно запустил регрессию, но результат стал еще хуже!
Сайрус

Ответы:

15

Следует отметить , что предположение о линейности вы имеете в виду только говорит , что условное среднее дал X я линейная функцияYiXi . Вы не можете использовать значение для проверки этого предположения.R2

Это связано с тем, что является просто квадратом корреляции между наблюдаемыми и прогнозируемыми значениями, а значение коэффициента корреляции не однозначно определяет взаимосвязь между X и Y (линейным или иным образом), и возможны оба следующих двух сценария: R2XY

  • Высокий но предположение о линейности все еще неверно в важном смыслеR2

  • Низкий но предположение о линейности все еще выполняетсяR2

Я буду обсуждать каждый по очереди:

(1) Высокий но предположение о линейности по-прежнему неверно в важном смысле:R2 хитрость здесь заключается в манипулировании фактом, что корреляция очень чувствительна к выбросам . Предположим , у вас есть предикторов , которые генерируются из распределения смеси, которое является стандартным нормальным в 99 % случаев, и точечной массы при M, других 1 %, и переменной отклика, которая равнаX1,...,Xn99%M1%

Yi={Ziif XiMMif Xi=M

где и M - положительная постоянная, намного превышающая μ , например, μ = 0 , M = 10 5 . Тогда X i и Y i будут почти идеально соотнесены:ZiN(μ,1)Mμμ=0,M=105XiYi

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

YiXiYiXiXi=M

R2XiYi

Yi=β0+β1Xi+εi

YiXiXivar(εi)=σ2β1R2

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

R2

Re: Что делать, если предположение о линейности не выполнено и преобразование IV также не помогает? !!

Когда нелинейность является проблемой, может быть полезно взглянуть на графики остатков в сравнении с каждым предиктором - если есть какой-либо заметный паттерн, это может указывать на нелинейность в этом предикторе. Например, если этот график показывает «чашеобразную» связь между остатками и предиктором, это может указывать на отсутствующий квадратичный термин в этом предикторе. Другие шаблоны могут указывать на другую функциональную форму. В некоторых случаях может оказаться, что вы не пытались исправить преобразование или что истинная модель не является линейной в любой преобразованной версии переменных (хотя может быть возможно найти разумное приближение).

R2

макрос
источник
4

R2=11R2R221<x<2R2R2

Майкл Р. Черник
источник
Спасибо, Майкл. Мой размер выборки 302. Я был бы признателен, если бы вы могли взглянуть на результаты теста здесь и посмотреть, насколько он правдоподобен и пригоден для отчета. TQ
Сайрус
@Cyrus Это сложный вопрос. Остатки выглядят так, как будто они действительно хорошо соответствуют норме, и я не вижу ничего, что могло бы быть неправильным с линейной регрессией. У вас приличное количество данных. R квадрат низкий, потому что случайная составляющая шума велика. График LOESS показывает некоторую кривизну при более низких значениях независимой переменной. Но я не нахожу это убедительным. Я думаю, что он может быть линейным, и это показывает, почему квадрат R не является хорошим индикатором в этом случае.
Майкл Р. Черник
Tq Майкл :) Да, это действительно сбивает с толку! Все предположения отлично выполнены, но линейность! Как вы можете видеть на 1-м графике выше, квадратичный R2 (0,199) больше линейного R2 (0,172), что означает, что он может лучше прогнозировать модель. На самом деле, когда я сделал квадратичную регрессию (добавив SC2), график рассеяния в результате был настолько гетероскедатичным! Я весьма озадачен! Не знаю, что делать с этой моделью! Единственная проблема - его низкая линейность. Я не знаю, как оправдать линейность, если я добавлю график рассеяния в свой отчет. Квадратичная регрессия также не соответствует предположению об однородности. Помощь
Сайрус
1
Я не думаю, что это сбивает с толку. Это выглядит довольно линейно. Существует много изменчивости, поэтому площадь R низкая. Я думаю, что единственный способ уменьшить изменчивость - найти другую объясняющую переменную.
Майкл Р. Черник