Я читаю эту заметку .
На странице 2 говорится:
«Какая разница в данных объясняется данной регрессионной моделью?»
«Интерпретация регрессии - это среднее значение коэффициентов, а вывод - об их дисперсии».
Я много раз читал о таких утверждениях. Почему нас волнует вопрос: «Сколько различий в данных объясняет данная модель регрессии?» ... более конкретно, почему «различие»?
Ответы:
почему нас волнует, "сколько различий в данных объясняется данной регрессионной моделью?"
Чтобы ответить на этот вопрос, полезно подумать о том, что конкретно означает, что определенный процент дисперсии объясняется регрессионной моделью.
Пусть будет переменной результата. Обычная выборочная дисперсия зависимой переменной в регрессионной модели: Теперь позвольте - это прогноз основанный на модели линейной регрессии наименьших квадратов со значениями предикторов . Как доказано здесь , эта дисперсия выше может быть разделена как:1Y1,...,Yn Y я≡ F (Xя)YяXя1
При регрессии по методу наименьших квадратов среднее значение прогнозируемых значений равно , поэтому общая дисперсия равна усредненной квадратичной разности между наблюдаемыми и прогнозируемыми значениями (остаточная дисперсия) плюс выборочная дисперсия самих прогнозов (поясняется дисперсии), которые являются только функцией s . Поэтому «объясненную» дисперсию можно рассматривать как дисперсию в которая связана с вариацией в . Доля дисперсии в которая «объяснена» (т.е. доля вариации в которая связана с вариацией в XYiXiYiYiXiR2Y¯¯¯¯ Икс Yя Икся Yя Yя Икся ) иногда упоминается как . р2
Теперь мы используем два крайних примера, чтобы прояснить, почему это разложение дисперсии важно:
(1) Предикторы не имеют ничего общего с ответами . В этом случае лучшим непредвзятым предиктором (в смысле наименьших квадратов) для является . Поэтому полная дисперсия в просто равна остаточной дисперсии и не связана с дисперсией в предикторах .Y я = ¯ Y Y я X яYя Yˆя= Y¯¯¯¯ Yя Икся
(2) Предикторы совершенно линейно связаны с предикторами . В этом случае прогнозы абсолютно верны и . Следовательно, нет остаточной дисперсии, и вся дисперсия в результате - это дисперсия в самих предсказаниях, которые являются только функцией предикторов. Поэтому все отклонения в результате просто обусловлены отклонениями в предикторах .XяYˆя= Yя Икся
Ситуации с реальными данными часто будут лежать между двумя крайностями, как и доля дисперсии, которая может быть отнесена к этим двум источникам. Чем больше «объясненной дисперсии» - то есть, чем больше вариация в из-за вариации - тем лучше выполняются прогнозы (т. меньше «Остаточная дисперсия» есть), это еще один способ сказать, что модель наименьших квадратов хорошо вписывается. Х я У яYя Икся Yˆя
источник
Я не могу бегать с большими собаками статистики, которые отвечали до меня, и, возможно, мое мышление наивно, но я смотрю на это так ...
Представьте, что вы находитесь в машине, и вы едете по дороге, поворачиваете колесо влево и вправо и неистово нажимаете педаль газа и тормоза. И все же машина движется плавно, не зависит от ваших действий. Вы сразу заподозрили бы, что вас не было в реальной машине, и, возможно, если бы мы присмотрелись, мы бы определили, что вы едете в Disney World. (Если бы вы были в реальной машине, вы были бы в смертельной опасности, но давайте не будем туда идти.)
С другой стороны, если вы ехали по дороге на автомобиле и слегка повернули колесо влево или вправо, это сразу же привело к движению автомобиля, нажатие на педаль тормоза привело к сильному замедлению, а нажатие на педаль газа отбросило вас обратно в сиденье. Вы можете подозревать, что находились в спортивной машине с высокими эксплуатационными характеристиками.
В общем, вы, вероятно, испытываете что-то среднее между этими двумя крайностями. Степень, в которой ваши входные данные (рулевое управление, тормоза, газ) напрямую влияют на движение автомобиля, дает вам представление о качестве автомобиля. То есть, чем больше дисперсия движения вашего автомобиля, связанная с вашими действиями, тем лучше автомобиль, и чем больше автомобиль движется независимо от вашего контроля, тем хуже автомобиль.
Аналогичным образом вы говорите о создании модели для некоторых данных (назовем эти данные ) на основе некоторых других наборов данных (назовем их ). Если не меняется, это как машина, которая не движется, и нет смысла обсуждать, работает ли автомобиль (модель) хорошо или нет, поэтому мы предположим, что меняется.х 1 , х 2 , . , , , Х я у уy x1,x2,...,xi y y
Так же, как и у автомобиля, модель хорошего качества будет иметь хорошее соотношение между результатами меняются, и входными данными меняются. В отличие от автомобиля, не обязательно приводит к изменению , но если модель будет полезной, нужно менять в тесной связи с . Другими словами, объясняют большую часть дисперсии в .x i x i y x i y x i yy xi xi y xi y xi y
PS Я не смог придумать аналогию с Винни-Пухом, но я попытался.
PPS [EDIT:] Обратите внимание, что я решаю этот конкретный вопрос. Не смущайтесь, думая, что если вы учитываете 100% дисперсии, ваша модель будет работать замечательно. Вам также нужно подумать о переоснащении, когда ваша модель настолько гибкая, что она очень точно соответствует обучающим данным, включая ее случайные причуды и странности. Чтобы использовать аналогию, вам нужен автомобиль с хорошим рулевым управлением и тормозами, но вы хотите, чтобы он хорошо работал на дороге, а не только на тестовой трассе, которую вы используете.
источник