Как интерпретировать коэффициент стандартных ошибок в линейной регрессии?

26

Мне интересно, как интерпретировать коэффициент стандартных ошибок регрессии при использовании функции отображения в R.

Например, в следующем выводе:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

Означает ли более высокая стандартная ошибка большую значимость?

Также для остаточного стандартного отклонения более высокое значение означает больший разброс, но квадрат R показывает очень близкое соответствие, не является ли это противоречием?

наверху
источник

Ответы:

52

Оценки параметров, такие как выборочное среднее значение или коэффициент регрессии OLS, являются выборочной статистикой, которую мы используем, чтобы сделать выводы о соответствующих параметрах совокупности. Население - это то, что нас действительно волнует, но поскольку у нас нет доступа ко всему населению (обычно предполагается, что оно бесконечно), мы должны вместо этого использовать этот подход. Однако есть некоторые неудобные факты, которые приходят с этим подходом. Например, если мы возьмем другую выборку и вычислим статистику для повторной оценки параметра, мы почти наверняка обнаружим, что он отличается. Более того, ни одна из оценок не вполне соответствует истинному значению параметра, которое мы хотим знать. На самом деле, если бы мы делали это снова и снова, продолжая отбирать и оценивать вечно, мы обнаружили бы, что относительная частота различных оценочных значений соответствует распределению вероятности. Центральная предельная теорема предполагает, что это распределение, вероятно, будет нормальным. Нам нужен способ количественной оценки степени неопределенности в этом распределении. Это то, что стандартная ошибка делает для вас.

В вашем примере вы хотите знать наклон линейной зависимости между x1 и y в совокупности, но у вас есть доступ только к вашей выборке. В вашей выборке этот уклон равен .51, но, не зная, насколько велика изменчивость в соответствующем распределении выборки , трудно понять, что делать с этим числом. Стандартная ошибка, в данном случае 0,05, является стандартным отклонением этого распределения выборки. Чтобы рассчитать значимость, вы делите оценку на SE и смотрите на коэффициент в таблице. Таким образом, большие SE означают меньшее значение.

Остаточное стандартное отклонение не имеет ничего общего с распределением выборки ваших склонов. Это просто стандартное отклонение вашего образца, зависящее от вашей модели. Здесь нет противоречия, и не может быть. Что касается того, как у вас есть большая SD с высоким R ^ 2 и только 40 точками данных, я бы предположил, что у вас есть противоположность ограничения диапазона - ваши значения x распространяются очень широко.

Gung - Восстановить Монику
источник
Отличный и очень четкий ответ! Таким образом, в основном для второго вопроса SD указывает на горизонтальную дисперсию, а R ^ 2 указывает на общую подгонку или вертикальную дисперсию?
выше
7
@Dbr, рад помочь. Обычно мы рассматриваем переменную ответа как находящуюся на вертикальной оси, а переменную предиктора на горизонтальной оси. При такой настройке все вертикально - регрессия сводит к минимуму вертикальные расстояния между прогнозами и переменной отклика (SSE). Аналогично, остаточное SD является мерой вертикальной дисперсии после учета прогнозируемых значений. Наконец, R ^ 2 - это отношение вертикальной дисперсии ваших прогнозов к общей вертикальной дисперсии ваших необработанных данных.
gung - Восстановить Монику