Имеет ли смысл изучать графики невязок относительно зависимой переменной?

11

Я хотел бы знать, имеет ли смысл изучать графики невязок относительно зависимой переменной, когда я получаю одномерную регрессию. Если это имеет смысл, что означает сильная линейная растущая корреляция между остатками (по оси Y) и оценочными значениями зависимой переменной (по оси X)?

введите описание изображения здесь

Луиджи
источник
3
Я не уверен, что вы подразумеваете под "сильной, линейной, растущей корреляцией". Вы можете показать сюжет? Вполне разумно построить остатки по отношению к установленным значениям. В общем, вы хотите, чтобы не было никаких отношений - плоская горизонтальная линия, проходящая через центр. Кроме того, вы хотите, чтобы вертикальная дисперсия остатков была постоянной с левой стороны вашего графика вправо.
gung - Восстановить Монику
Здравствуй. Спасибо за ваш ответ. Это сюжет: img100.imageshack.us/img100/7414/bwages.png
Луиджи
Это сбивает с толку. Позвольте мне убедиться, что я понимаю: вы запустили регрессионную модель, а затем построили графики остатков в зависимости от установленных значений, и это то, что вы получили, верно? Это не должно выглядеть так. Можете ли вы отредактировать свой вопрос и вставить код, который вы использовали для модели и графика?
gung - Восстановить Монику
Вы правильно поняли. Извините, но я не знаю, как получить код, я запустил регрессию и составил график остатков с помощью программы Gretl.
Луиджи,
2
Первоначально я не видел комментарий от @ mark999, когда писал свой ответ ниже. Я думаю, что его подозрение верно, что это остатки против значений y. Луиджи, переделай свой график - не пытайся интерпретировать его, когда ты можешь ошибаться в отношении переменных.
Майкл Бишоп

Ответы:

12

Предположим, что у вас есть регрессия , где β 10 . Тогда y i - β 0ϵ i . Чем выше значение y , тем больше остаток. Напротив, график остатков против x не должен показывать систематической связи. Кроме того , прогнозируемое значение у я должна быть приблизительно β 0Yязнак равноβ0+β1Икся+εяβ10Yя-β0εяYИксY^яβ^0--- то же самое для каждого наблюдения. Если все прогнозируемые значения примерно одинаковы, они должны быть не связаны с ошибками.

Сюжет говорит мне, что и y по существу не связаны (конечно, есть лучшие способы показать это). Дайте нам знать , если ваш коэффициент р 1 не близко к 0.ИксYβ^1

В качестве лучшей диагностики используйте график остатков по отношению к прогнозируемой заработной плате или по значению . Вы не должны наблюдать различимый образец на этих графиках.Икс

Если вы хотите небольшую демонстрацию R, вот вам:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)
Чарли
источник
Это не означает, что только из-за , возможно, что модели потребуются дополнительные объясняющие переменные, такие как полиномиальные члены. β1знак равно0
Биостат
5

Предполагая, что оценочная модель правильно указана ...

Обозначим через , матрица Р Х представляет собой матрицу проекции, так что P 2 Х = Р X и Р ' Х = Р X .пИксзнак равноИкс(Икс'Икс)-1Икс'пИкспИкс2знак равнопИкспИкс'знак равнопИкс

.Соv(Y^,е^)знак равноСоv(пИксY,(я-пИкс)Y)знак равнопИксСоv(Y,Y)(я-пИкс)'знак равноσ2пИкс(я-пИкс)знак равно0

Таким образом, график рассеяния остатков от предсказанной зависимой переменной не должен показывать корреляцию.

Но!

Соv(Y,е^)знак равноСоv(Y,(я-пИкс)Y)знак равноСоv(Y,Y)(я-пИкс)'знак равноσ2(я-пИкс)

σ2(я-пИкс)

Насколько я знаю, Gretl по умолчанию создает график остатков по отношению к исходной зависимой переменной (не прогнозируемой!).

Roah
источник
Я ценю другую возможность. Вот где некоторые знания о Gretl полезны. Интересно, однако, насколько правдоподобно, что это как настоящий ответ. Используя мои смоделированные данные, я сопоставил и построил графики остатков по сравнению с исходным dv; r = .22 и сюжет очень похож на мой 3-й сюжет, а не на вопросный сюжет. Конечно, я обработал эти данные, чтобы проверить правдоподобность моей истории - они могут не подходить для проверки вашей.
gung - Восстановить Монику
@ Gung Что вы имеете в виду, вы использовали свои смоделированные данные?
Майкл Бишоп
@MichaelBishop, если вы посмотрите на мой ответ, вы увидите, что я смоделировал данные, чтобы опробовать мою историю, чтобы увидеть, будет ли она выглядеть как опубликованный сюжет. Мой код и графики представлены. Так как я указал семя, оно может быть воспроизведено любым человеком, имеющим доступ к R.
gung - Восстановить Монику
4

Возможно ли, что вы путаете подогнанные / прогнозируемые значения с фактическими значениями?

Как сказали @gung и @biostat, вы надеетесь, что между подобранными значениями и остатками нет никакой связи. С другой стороны, следует ожидать, что обнаружение линейной зависимости между фактическими значениями зависимой переменной / результата и остаточными значениями не является особенно информативным.

Добавлено для пояснения предыдущего предложения: не следует ожидать какой-либо линейной зависимости между остатками и фактическими значениями исхода ... Для низких измеренных значений Y прогнозируемые значения Y из полезной модели будут иметь тенденцию быть выше, чем фактические измеренные значения и наоборот.

Майкл Бишоп
источник
Смысл того, что вы говорите, заключается в том, что, если значения постоянно недооцениваются при низких значениях Y, и постоянно переоцениваются при высоких значениях Y, это нормально. Это проблема, верно?
rolando2
@ rolando2, я не имел в виду то, что вы говорите, я имел в виду, хотя, возможно, я должен уточнить свой ответ. Как вы сказали, постоянное занижение прогноза при низких значениях Y и завышение прогноза при высоких значениях Y будет признаком очень плохой модели. Я представлял себе обратное: чрезмерное прогнозирование при низких значениях Y и недостаточное прогнозирование при высоких значениях Y. Это явление является обычным явлением, и его следует ожидать примерно пропорционально тому, какую разницу в зависимой переменной вы можете объяснить. Представьте, что у вас нет переменных, которые предсказывают Y, поэтому вы всегда используете среднее значение в качестве своего прогноза
Майкл Бишоп,
1
То, что вы сказали, имеет смысл для меня, за исключением одной вещи. У меня возникли проблемы с представлением, что такая сильная тенденция, как показала Луиджи, когда-либо показалась бы в здравом или желательном решении, даже если эта тенденция перешла с левого верхнего угла на правый нижний.
rolando2
1
@ rolando2, остатки обычно определяются как наблюдаемые - установлены, поэтому отрицательные остатки являются завышенными прогнозами. В правильно определенной модели с небольшим объяснительным воздействием - я социолог, поэтому я вижу их все время - будет существовать сильная положительная связь между остатками и наблюдаемыми значениями результатов. Если это соотношение между остатками и фактическим графиком, то тренд от верхнего левого угла к нижнему правому будет сигналом плохо неверно определенной модели, о которой вы изначально беспокоились.
Майкл Бишоп
Хорошо моя вина Как писали Майкл Бишоп и Роа, Гретл строит остатки по отношению к наблюдаемому y, а не к предсказанному. Я очень сожалею обо всем этом беспорядке, я действительно не ожидал всех этих ответов. Я новичок, и я сделал эту ошибку, поэтому я надеюсь, что вы можете "простить" меня. Во всяком случае, я думаю, что это должно указывать мне, что я должен был использовать более объяснительные переменные. Спасибо всем!
Луиджи
3

Предлагаемые ответы дают мне некоторые идеи о том, что здесь происходит. Я верю, что, возможно, были допущены некоторые ошибки случайно. Посмотрите, имеет ли смысл следующая история: Для начала, я думаю, что, вероятно, существует сильная связь между X & Y в данных (вот некоторый код и сюжет):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

введите описание изображения здесь

Но по ошибке Y был предсказан только из среднего. Сложив это, остатки от средней только модели строятся на графике против X, даже при том, что предполагалось построить график с использованием соответствующих значений (код и график):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

введите описание изображения здесь

Мы можем исправить это, подбирая подходящую модель и вычерчивая на ней остатки (код и график):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

введите описание изображения здесь

Это похоже на те глупости, которые я сделал, когда начинал.

Gung - Восстановить Монику
источник
0

Этот график показывает, что выбранная вами модель не подходит. Как @gung сказал в первых комментариях по основному вопросу, что не должно быть никакой связи между предсказанным ответом и остаточным.

«Аналитик должен ожидать, что регрессионная модель ошибается в прогнозировании ответа случайным образом; модель должна прогнозировать значения выше фактического и ниже фактического с равной вероятностью. Смотрите это »

Я бы порекомендовал первый сюжетный ответ против независимой переменной, чтобы увидеть связь между ними. Возможно, было бы разумно добавить полиномиальные члены в модель.

Биостат
источник
0

Разве это не то, что происходит, если нет никакой связи между переменной X & Y? Из этого графика видно, что вы, по сути, предсказывает Y со средним значением.

Адам
источник
0

Я думаю, что OP построил график остатков в сравнении с исходной переменной ответа (а не с адаптированной переменной ответа из модели). Я вижу такие графики постоянно, с почти одинаковым рисунком. Удостоверьтесь, что вы вычерчиваете невязки по сравнению с подгоночными значениями, поскольку я не уверен, какой значимый вывод вы могли бы извлечь из остатков по сравнению с исходным Y. Но я, безусловно, могу ошибаться.

Тодай
источник