Функция lm в R может выводить оценочную ковариацию коэффициентов регрессии. Что эта информация дает нам? Можем ли мы теперь лучше интерпретировать модель или диагностировать проблемы, которые могут присутствовать в модели?
13
Функция lm в R может выводить оценочную ковариацию коэффициентов регрессии. Что эта информация дает нам? Можем ли мы теперь лучше интерпретировать модель или диагностировать проблемы, которые могут присутствовать в модели?
Ответы:
Основным применением ковариационной матрицы является получение стандартных ошибок оценок регрессии. Если исследователь заинтересован только в стандартных ошибках отдельных параметров регрессии, он может просто взять квадратный корень из диагонали, чтобы получить отдельные стандартные ошибки.
Однако часто вас может заинтересовать линейная комбинация параметров регрессии. Например, если у вас есть индикаторная переменная для данной группы, вас может заинтересовать среднее значение группы, которое будет
Затем, чтобы найти стандартную ошибку для среднего значения этой группы, вы должны
где - вектор ваших контрастов, а - ковариационная матрица. В нашем случае, если у нас есть только ковариат сложения "grp", то ( для перехвата, для принадлежности к группе).X S X=(1,1) 1 1
Кроме того, ковариационная матрица (или, более того, корреляционная матрица, которая однозначно идентифицируется из ковариационной матрицы, но не наоборот), может быть очень полезна для диагностики некоторых моделей. Если две переменные сильно коррелированы, один из способов думать об этом состоит в том, что у модели возникают проблемы с выяснением, какая переменная отвечает за эффект (потому что они так тесно связаны). Это может быть полезно для целого ряда случаев, таких как выбор подмножеств ковариат для использования в прогностической модели; если две переменные сильно коррелированы, вы можете использовать только одну из двух в своей прогнозной модели.
источник
Существует два «вида» коэффициентов регрессии:
Теперь подумайте, что означает ковариация. Возьмем любые две случайные величины и . Есливысокий, то всякий раз, когда вы рисуете большое абсолютное значение вы также можете ожидать, что вы будете рисовать большое абсолютное значение в том же направлении. Обратите внимание, что «высокий» здесь относится к количеству вариаций в и , как указано в комментариях.Y | C o v ( X , Y ) | X Y X YX Y |Cov(X,Y)| X Y X Y
(Расчетная) ковариация двух коэффициентов регрессии является ковариацией оценок , . Если ковариация между оцененными коэффициентами и высока, то в любой выборке, где высока, вы также можете ожидать, что будет высоким. В более байесовском смысле содержит информацию о .b 1 b 2 b 1 b 2 b 1 b 2b b1 b2 b1 b2 b1 b2
Обратите внимание, что «высокий» является относительным. Здесь « является высоким» означает, что « является высоким относительно его стандартной ошибки», а их ковариация является «высокой», что означает «высокий по отношению к произведению их стандартных ошибок». Один из способов сгладить эти интерпретирующие икоты - стандартизировать каждый вход регрессии путем деления на его стандартное отклонение (или два стандартных отклонения в некоторых случаях).б 1b1 b1
Один пользователь на этом сайте описал как "немного выдумки", но я не совсем согласен. Во-первых, вы можете использовать эту интерпретацию, чтобы придумать информативные приоры в байесовской регрессии.Cov(b1,b2)
Что касается того, для чего это фактически используется, ответ Клиффа АБ - хорошее резюме.
источник