Я хотел бы знать, имеет ли смысл изучать графики невязок относительно зависимой переменной, когда я получаю одномерную регрессию. Если это имеет смысл, что означает сильная линейная растущая корреляция между остатками (по оси Y) и оценочными значениями зависимой переменной (по оси X)?
regression
residuals
Луиджи
источник
источник
Ответы:
Предположим, что у вас есть регрессия , где β 1 ≈ 0 . Тогда y i - β 0 ≈ ϵ i . Чем выше значение y , тем больше остаток. Напротив, график остатков против x не должен показывать систематической связи. Кроме того , прогнозируемое значение у я должна быть приблизительно β 0Yя= β0+ β1Икся+ ϵя β1≈ 0 Yя- β0≈ ϵя Y Икс Y^я β^0 --- то же самое для каждого наблюдения. Если все прогнозируемые значения примерно одинаковы, они должны быть не связаны с ошибками.
Сюжет говорит мне, что и y по существу не связаны (конечно, есть лучшие способы показать это). Дайте нам знать , если ваш коэффициент р 1 не близко к 0.Икс Y β^1
В качестве лучшей диагностики используйте график остатков по отношению к прогнозируемой заработной плате или по значению . Вы не должны наблюдать различимый образец на этих графиках.Икс
Если вы хотите небольшую демонстрацию R, вот вам:
источник
Предполагая, что оценочная модель правильно указана ...
Обозначим через , матрица Р Х представляет собой матрицу проекции, так что P 2 Х = Р X и Р ' Х = Р X .пИксзнак равно Х( Х'Икс)- 1Икс' пИкс п2Икс= PИкс п'Икс= PИкс
.Сo v ( Y^, е^) = Co v ( PИксY, ( Я- ПИкс) Y) = PИксСo v ( Y, Y) ( Я- ПИкс)'= σ2пИкс( Я- ПИкс) = 0
Таким образом, график рассеяния остатков от предсказанной зависимой переменной не должен показывать корреляцию.
Но!
Насколько я знаю, Gretl по умолчанию создает график остатков по отношению к исходной зависимой переменной (не прогнозируемой!).
источник
Возможно ли, что вы путаете подогнанные / прогнозируемые значения с фактическими значениями?
Как сказали @gung и @biostat, вы надеетесь, что между подобранными значениями и остатками нет никакой связи. С другой стороны, следует ожидать, что обнаружение линейной зависимости между фактическими значениями зависимой переменной / результата и остаточными значениями не является особенно информативным.
Добавлено для пояснения предыдущего предложения: не следует ожидать какой-либо линейной зависимости между остатками и фактическими значениями исхода ... Для низких измеренных значений Y прогнозируемые значения Y из полезной модели будут иметь тенденцию быть выше, чем фактические измеренные значения и наоборот.
источник
Предлагаемые ответы дают мне некоторые идеи о том, что здесь происходит. Я верю, что, возможно, были допущены некоторые ошибки случайно. Посмотрите, имеет ли смысл следующая история: Для начала, я думаю, что, вероятно, существует сильная связь между X & Y в данных (вот некоторый код и сюжет):
Но по ошибке Y был предсказан только из среднего. Сложив это, остатки от средней только модели строятся на графике против X, даже при том, что предполагалось построить график с использованием соответствующих значений (код и график):
Мы можем исправить это, подбирая подходящую модель и вычерчивая на ней остатки (код и график):
Это похоже на те глупости, которые я сделал, когда начинал.
источник
Этот график показывает, что выбранная вами модель не подходит. Как @gung сказал в первых комментариях по основному вопросу, что не должно быть никакой связи между предсказанным ответом и остаточным.
«Аналитик должен ожидать, что регрессионная модель ошибается в прогнозировании ответа случайным образом; модель должна прогнозировать значения выше фактического и ниже фактического с равной вероятностью. Смотрите это »
Я бы порекомендовал первый сюжетный ответ против независимой переменной, чтобы увидеть связь между ними. Возможно, было бы разумно добавить полиномиальные члены в модель.
источник
Разве это не то, что происходит, если нет никакой связи между переменной X & Y? Из этого графика видно, что вы, по сути, предсказывает Y со средним значением.
источник
Я думаю, что OP построил график остатков в сравнении с исходной переменной ответа (а не с адаптированной переменной ответа из модели). Я вижу такие графики постоянно, с почти одинаковым рисунком. Удостоверьтесь, что вы вычерчиваете невязки по сравнению с подгоночными значениями, поскольку я не уверен, какой значимый вывод вы могли бы извлечь из остатков по сравнению с исходным Y. Но я, безусловно, могу ошибаться.
источник