Почему регрессия по поводу дисперсии?

19

Я читаю эту заметку .

На странице 2 говорится:

«Какая разница в данных объясняется данной регрессионной моделью?»

«Интерпретация регрессии - это среднее значение коэффициентов, а вывод - об их дисперсии».

Я много раз читал о таких утверждениях. Почему нас волнует вопрос: «Сколько различий в данных объясняет данная модель регрессии?» ... более конкретно, почему «различие»?

Luna
источник
«[V] ariance» в отличие от чего, стандартное отклонение? Что вы думаете, что мы должны заботиться о регрессе? Каковы ваши типичные цели в построении регрессионной модели?
gung - Восстановить Монику
Дисперсия имеет единицы, отличные от моделируемой величины, поэтому мне всегда было трудно интерпретировать «пропорцию дисперсии, объясненную моделью».
летит

Ответы:

18

почему нас волнует, "сколько различий в данных объясняется данной регрессионной моделью?"

Чтобы ответить на этот вопрос, полезно подумать о том, что конкретно означает, что определенный процент дисперсии объясняется регрессионной моделью.

Пусть будет переменной результата. Обычная выборочная дисперсия зависимой переменной в регрессионной модели: Теперь позвольте - это прогноз основанный на модели линейной регрессии наименьших квадратов со значениями предикторов . Как доказано здесь , эта дисперсия выше может быть разделена как:1Y1,...,Yn Y я F (Xя)YяXя1

1n1i=1n(YiY¯)2
Y^if^(Xi)YiXi
1n1i=1n(YiY¯)2=1n1i=1n(YiY^i)2residual variance+1n1i=1n(Y^iY¯)2explained variance

При регрессии по методу наименьших квадратов среднее значение прогнозируемых значений равно , поэтому общая дисперсия равна усредненной квадратичной разности между наблюдаемыми и прогнозируемыми значениями (остаточная дисперсия) плюс выборочная дисперсия самих прогнозов (поясняется дисперсии), которые являются только функцией s . Поэтому «объясненную» дисперсию можно рассматривать как дисперсию в которая связана с вариацией в . Доля дисперсии в которая «объяснена» (т.е. доля вариации в которая связана с вариацией в XYiXiYiYiXiR2Y¯XYiXiYiYiXi) иногда упоминается как . R2

Теперь мы используем два крайних примера, чтобы прояснить, почему это разложение дисперсии важно:

  • (1) Предикторы не имеют ничего общего с ответами . В этом случае лучшим непредвзятым предиктором (в смысле наименьших квадратов) для является . Поэтому полная дисперсия в просто равна остаточной дисперсии и не связана с дисперсией в предикторах .Y я = ¯ Y Y я X яYiY^i=Y¯YiXi

  • (2) Предикторы совершенно линейно связаны с предикторами . В этом случае прогнозы абсолютно верны и . Следовательно, нет остаточной дисперсии, и вся дисперсия в результате - это дисперсия в самих предсказаниях, которые являются только функцией предикторов. Поэтому все отклонения в результате просто обусловлены отклонениями в предикторах .XяY^i=YiXi

Ситуации с реальными данными часто будут лежать между двумя крайностями, как и доля дисперсии, которая может быть отнесена к этим двум источникам. Чем больше «объясненной дисперсии» - то есть, чем больше вариация в из-за вариации - тем лучше выполняются прогнозы (т. меньше «Остаточная дисперсия» есть), это еще один способ сказать, что модель наименьших квадратов хорошо вписывается. Х я У яYiXiY^i

макрос
источник
Это как мой ответ, но, возможно, немного лучше объяснено. Также я вижу возможную критику, о которой можно было бы упомянуть, это то, что я должен был написать вариацию относительно среднего значения Y.
Майкл Р. Черник,
1
@MichaelChernick, да, но в регрессии наименьших квадратов (о которой я думаю, что OP говорит на основе связанных слайдов), среднее значение прогнозируемых значений равно среднему , так что вы можете просто назвать его выборочной дисперсией прогнозы. Y
Макро
Я отредактировал свой ответ, потому что Yb необходим для правильной декомпозиции дисперсии.
Майкл Р. Черник
Да, мне было ясно, что она имела в виду регрессию наименьших квадратов. Тем не менее, многое из того, что вы написали, просто повторяет то, что я сказал, немного по-другому. Я все еще дал тебе +1.
Майкл Р. Черник
1
Макро, моя точка зрения заключалась в том, что эта декомпозиция происходит только в том случае, если и таким образом, «регрессия» по своей природе включает в себя ортогональную проекцию на пространство, содержащее постоянный вектор. Обратите внимание, что мы можем легко «сломать» эту декомпозицию, просто удалив вектор константы из нашей модели, что, кажется, противоречит вашему последнему комментарию. yy^,y^y¯1=0
кардинал
9

Я не могу бегать с большими собаками статистики, которые отвечали до меня, и, возможно, мое мышление наивно, но я смотрю на это так ...

Представьте, что вы находитесь в машине, и вы едете по дороге, поворачиваете колесо влево и вправо и неистово нажимаете педаль газа и тормоза. И все же машина движется плавно, не зависит от ваших действий. Вы сразу заподозрили бы, что вас не было в реальной машине, и, возможно, если бы мы присмотрелись, мы бы определили, что вы едете в Disney World. (Если бы вы были в реальной машине, вы были бы в смертельной опасности, но давайте не будем туда идти.)

С другой стороны, если вы ехали по дороге на автомобиле и слегка повернули колесо влево или вправо, это сразу же привело к движению автомобиля, нажатие на педаль тормоза привело к сильному замедлению, а нажатие на педаль газа отбросило вас обратно в сиденье. Вы можете подозревать, что находились в спортивной машине с высокими эксплуатационными характеристиками.

В общем, вы, вероятно, испытываете что-то среднее между этими двумя крайностями. Степень, в которой ваши входные данные (рулевое управление, тормоза, газ) напрямую влияют на движение автомобиля, дает вам представление о качестве автомобиля. То есть, чем больше дисперсия движения вашего автомобиля, связанная с вашими действиями, тем лучше автомобиль, и чем больше автомобиль движется независимо от вашего контроля, тем хуже автомобиль.

Аналогичным образом вы говорите о создании модели для некоторых данных (назовем эти данные ) на основе некоторых других наборов данных (назовем их ). Если не меняется, это как машина, которая не движется, и нет смысла обсуждать, работает ли автомобиль (модель) хорошо или нет, поэтому мы предположим, что меняется.х 1 , х 2 , . , , , Х я у уyx1,x2,...,xiyy

Так же, как и у автомобиля, модель хорошего качества будет иметь хорошее соотношение между результатами меняются, и входными данными меняются. В отличие от автомобиля, не обязательно приводит к изменению , но если модель будет полезной, нужно менять в тесной связи с . Другими словами, объясняют большую часть дисперсии в .x i x i y x i y x i yyxixi yxiyxiy

PS Я не смог придумать аналогию с Винни-Пухом, но я попытался.

PPS [EDIT:] Обратите внимание, что я решаю этот конкретный вопрос. Не смущайтесь, думая, что если вы учитываете 100% дисперсии, ваша модель будет работать замечательно. Вам также нужно подумать о переоснащении, когда ваша модель настолько гибкая, что она очень точно соответствует обучающим данным, включая ее случайные причуды и странности. Чтобы использовать аналогию, вам нужен автомобиль с хорошим рулевым управлением и тормозами, но вы хотите, чтобы он хорошо работал на дороге, а не только на тестовой трассе, которую вы используете.

Wayne
источник