Остаточные графики: почему график в зависимости от установленных значений, а не наблюдаемых значений

В контексте регрессии OLS я понимаю, что остаточный график (в сравнении с установленными значениями) обычно рассматривается для проверки на постоянную дисперсию и оценки спецификации модели. Почему остатки отображаются в зависимости от подгонки, а не от значений ? Как информация отличается от этих двух графиков? $Y$

Я работаю над моделью, которая произвела следующие остаточные участки:

введите описание изображения здесь

Таким образом, график против подогнанных значений выглядит хорошо с первого взгляда, но у второго графика против значения есть образец. Мне интересно, почему такой ярко выраженный паттерн не проявился бы и в сюжете «остаточный против подгонки» ... $Y$

Я не ищу помощи в диагностике проблем с моделью, а просто пытаюсь понять различия (как правило) между (1) остаточным и подходящим графиком и (2) остаточным по сравнению с графиком. $Y$

Что бы это ни стоило, я уверен, что схема ошибок на втором графике связана с отсутствием переменной (переменных), которые влияют на DV. В настоящее время я работаю над получением этих данных, которые, как я ожидаю, помогут в целом подгонке и спецификации. Я работаю с данными по недвижимости: DV = Цена продажи. IVs: Квадратный фут дома, количество гаражных мест, год постройки, год постройки . $^2$

regression residuals макинтош
источник

Я взял на себя смелость подправить название, чтобы оно соответствовало вашим намерениям чуть более тесно. Даже среди экономистов (вы можете быть одним из них) «IV» имеет другое значение инструментальной переменной, хотя в этом случае нет никакой двусмысленности. Для лучшего общения между несколькими статистическими науками некоторые из нас не рекомендуют использовать локально сокращенные обозначения, такие как DV (что для некоторых еще означает « Deo volente» ) и IV, в пользу таких вызывающих воспоминаний терминов, как ответ или результат, с одной стороны, и предиктор или ковариат, с другой. Другой. Я знаю, что это деталь в вашем вопросе, но на нее хорошо ответили.

Ник Кокс

Ответы:

По построению член ошибки в модели OLS не связан с наблюдаемыми значениями X-ковариат. Это всегда будет верно для наблюдаемых данных, даже если модель дает смещенные оценки, которые не отражают истинные значения параметра, потому что допущение модели нарушается (например, проблема с пропущенной переменной или проблема с обратной причинностью). Прогнозируемые значения полностью зависят от этих ковариат, поэтому они также не связаны с погрешностью. Таким образом, когда вы вычерчиваете невязки против предсказанных значений, они всегда должны выглядеть случайными, потому что они действительно не коррелированы при построении оценки. В отличие от этого, вполне возможно (и действительно возможно), чтобы термин ошибки модели на практике коррелировал с Y. Например, с дихотомической переменной X, чем дальше истинное Y отE(Y | X = 1)или E(Y | X = 0)тогда чем больше будет остаток Вот та же интуиция с моделируемыми данными в R, где мы знаем, что модель несмещена, потому что мы контролируем процесс генерации данных:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Мы получаем тот же результат нулевой корреляции с смещенной моделью, например, если мы опускаем x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

Майкл
источник

Полезно, но первое предложение может быть переписано для ясности. «Строительство» производит остатки; срок ошибки считается существующим и существующим до расчета. Точно так же я бы сказал, что построены оценки, а не оценщик, который является методом, используемым для их построения.

Ник Кокс

Но тогда почему мы даже смотрим на остаточный график (против совпадений)? Какую диагностическую цель имеет этот сюжет? Я новичок на сайте. Должен ли я отмечать Майкла или он автоматически получает этот комментарий? Мой комментарий также относится к ответу @Glen_b ниже. Оба ответа помогают моему пониманию. Благодарю.

Mac

... потому что они могут показать другую структуру. Отсутствие корреляции между остатком и подгонкой не означает, что другие вещи тоже не могут происходить. Если вы считаете, что ваша модель идеальна, то вы не поверите, что это возможно ... На практике вам нужно проверять другие типы структур.

Ник Кокс

@ Мак, я буду честен и скажу, что никогда не смотрю на эти сюжеты. Если вы пытаетесь сделать причинный вывод, то вам следует продумать пропущенные переменные проблемы и концептуально обратить проблемы причинности. Любая проблема может возникнуть, и вы не сможете увидеть ее на этих графиках, так как это проблемы наблюдательной эквивалентности. Если все, что вас волнует, это предсказание, то вам следует продумать и проверить вне выборки, насколько хорошо предсказания вашей модели выполняются вне выборки (в противном случае это не предсказание).

Майкл

@NickCox Да, я имею в виду термин ошибки, оцененный моделью, а не истинное значение параметра.

Майкл

Два факта, которые я предполагаю, что вы довольны мной, просто констатируете

$y_i = \hat{y}_i+\hat{e}_i$

$\text{Cov}(\hat{y}_i,\hat{e}_i)=0$

Потом:

$\text{Cov}(y_i,\hat{e}_i)=\text{Cov}(\hat{y}_i+\hat{e}_i,\hat{e}_i)$

$\qquad=\text{Cov}(\hat{y}_i,\hat{e}_i) +\text{Cov}(\hat{e}_i,\hat{e}_i)$

$\qquad=0 +\sigma^2_e$

$\qquad=\sigma^2_e$

Таким образом, в то время как установленное значение не коррелирует с остатком, наблюдение есть .

По сути, это связано с тем, что как наблюдение, так и остаток относятся к члену ошибки.

Это обычно затрудняет использование остаточного графика в диагностических целях.

Glen_b - Восстановить Монику
источник