Подтверждение распределения остатков в линейной регрессии

17

Предположим, мы запустили простую линейную регрессию , сохранили невязки и нарисовали гистограмму распределения невязок. Если мы получим что-то похожее на знакомый дистрибутив, можем ли мы предположить, что наш термин ошибки имеет такое распределение? Скажем, если мы выяснили, что остатки похожи на нормальное распределение, имеет ли смысл предполагать нормальность погрешности в популяции? Я думаю, что это разумно, но как это может быть оправдано? $y=\beta_0+\beta_1x+u$ $\hat{u_i}$

r regression residuals marcin63
источник

1

Лично мне довольно сложно оценить нормальность по гистограмме (или графику плотности ядра). Я бы никогда не стал полагаться на них как на «окончательное» доказательство. Сюжеты QQ гораздо более мощные для этой цели.

18

Все зависит от того, как вы оцениваете параметры . Обычно, оценки являются линейными, что означает, что остатки являются линейными функциями данных. Когда ошибки есть нормальное распределение, то так делают данные, откуда так что невязки ( индексы МИОНы данных, конечно). $u_i$ $\hat{u}_i$ $i$

Возможно (и логически возможно), что когда остатки имеют примерно нормальное (одномерное) распределение, это происходит из -за ненормального распределения ошибок. Однако при использовании методов оценки методом наименьших квадратов (или максимального правдоподобия) линейное преобразование для вычисления остатков является «умеренным» в том смысле, что характеристическая функция (многовариантного) распределения остатков не может сильно отличаться от ср ошибок. ,

На практике нам никогда не нужно, чтобы ошибки были точно нормально распределены, так что это неважная проблема. Гораздо важнее ошибки: 1) все их ожидания должны быть близки к нулю; (2) их корреляции должны быть низкими; и (3) должно быть приемлемо небольшое количество отдаленных значений. Чтобы проверить это, мы применяем различные тесты соответствия, корреляционные тесты и тесты выбросов (соответственно) для остатков. Тщательное регрессионное моделирование всегда включает в себя выполнение таких тестов (которые включают в себя различные графические визуализации остатков, например, автоматически предоставляемые методом R plotпри применении к lmклассу).

Еще один способ решения этого вопроса - моделирование из гипотетической модели. Вот некоторый (минимальный, одноразовый) Rкод для выполнения этой работы:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

Для случая п = 32, эта вероятность накладного участок 99 наборов остатков показывают , что они имеют тенденцию быть близко к распределению ошибок (который является стандартным нормальным), потому что они равномерно расщеплять к опорной линии : $y=x$

Рисунок для n = 32

Для случая n = 6 меньший медианный наклон на графиках вероятности указывает на то, что отклонения имеют немного меньшую дисперсию, чем ошибки, но в целом они имеют тенденцию быть нормально распределенными, поскольку большинство из них достаточно хорошо отслеживают опорную линию (учитывая небольшое значение ): $n$

Рисунок для n = 6

Whuber
источник

все станет интереснее, если вы добавите слово rexp(n)вместо того, чтобы rnorm(n)генерировать ваши данные. Распределение остатков будет ПУТЬ ближе к нормальному, чем вы думаете.

StasK

Но если мы не предполагаем, что остатки являются нормальными, как рассчитывается p-значение результирующих оценочных коэффициентов? Что такое тестовая статистика?

Муравей

5

y_{i} = x_{i}^{'} β + ϵ_{i}

$y_i = x_i'\beta + \epsilon_i$

y = X β + ϵ

$\mathbf{y} = \mathbf{X}\beta + \mathbf{\epsilon}$

e = (I - H) y

$\mathbf{e} = (I-H) \mathbf{y}$

H = X (X^{'} X)^{- 1} X^{'}

$H = X(X'X)^{-1} X'$

e_{i}

$e_i$

(1 - h_{i i})

$(1-h_{ii})$

ϵ_{i}

$\epsilon_i$

h_{i j}

$h_{ij}$

ϵ_{j}, j \neq i

$\epsilon_j, j\neq i$

\sum_{j \neq i} h_{i j}^{2} + h_{i i}^{2} = h_{i i}

$\sum_{j\neq i} h_{ij}^2 + h_{ii}^2 = h_{ii}$

O (1 / n)

$O(1/n)$

ϵ_{i}

$\epsilon_i$

e_{i}

$e_i$

(1 - h_{i i}) ϵ_{i}

$(1-h_{ii})\epsilon_i$

Stask
источник

1

Если мы получим что-то похожее на знакомый дистрибутив, можем ли мы предположить, что наш термин ошибки имеет такое распределение?

Я бы сказал, что вы не можете этого сделать, так как модель, которую вы только что подобрали, является недействительной, если предположение нормальности относительно ошибок не выполняется. (в том смысле, что форма распределения явно ненормальна, например, Коши и т. д.)

Обычный подход вместо предположения о распределенных пуассоновских ошибках состоит в том, чтобы выполнить некоторую форму преобразования данных, такую как log y или 1 / y, чтобы нормализовать невязки. (также истинная модель может быть не линейной, что может привести к тому, что отображенные остатки будут выглядеть странно распределенными, даже если они на самом деле нормальные)

Скажем, если мы выяснили, что остатки похожи на нормальное распределение, имеет ли смысл предполагать нормальность погрешности в популяции?

Вы приняли нормальность ошибок, как только вы подобрали регрессию OLS. Должны ли вы предоставить аргументы для этого утверждения, зависит от типа и уровня вашей работы. (часто полезно взглянуть на то, что принято в этой области)

Теперь, если остатки действительно распределены нормально, вы можете погладить себя по спине, поскольку можете использовать его как эмпирическое доказательство ваших предыдущих предположений. :)

средства к смыслу
источник

0

Да, это разумно. Остатки ошибки. Вы также можете посмотреть на нормальный график QQ.

Томас
источник

{\hat{u}}_{i}

$\hat{u}_i$

u

$u$

7

y_{i} - x_{i} \hat{β}

$y_{i} - x_{i} \hat{\beta}$

y_{i} - x_{i} β

$y_{i} - x_{i} \beta$

x

$x$

X

$X$

1

@ Уэйн, я полагаю, что «это» относится к процедуре «если мы выяснили, что остатки похожи на нормальное распределение, ... чтобы предположить нормальность ошибочных членов в популяции». Я думаю, что вы в основном правы, но тонкость заключается в том, что остатки являются продуктом как выборки, так и метода, используемого для оценки параметров. Я считаю это вдумчивым и интересным вопросом.

whuber

@whuber Мне было бы интересно ваше мнение о стандартизированных и необработанных остатках.

Мишель

Подтверждение распределения остатков в линейной регрессии

Ответы: