Грубо говоря, существует три разных источника ошибки предсказания:
- предвзятость вашей модели
- дисперсия вашей модели
- необъяснимая разница
Мы ничего не можем сделать с пунктом 3 (за исключением попыток оценить необъяснимую дисперсию и включения ее в наши прогнозные плотности и интервалы прогнозирования). Это оставляет нас с 1 и 2.
Если у вас действительно есть «правильная» модель, то, скажем, оценки параметров OLS будут несмещенными и будут иметь минимальную дисперсию среди всех несмещенных (линейных) оценок (они СИНИЕ). Прогнозы из модели OLS будут лучшими линейными непредвзятыми прогнозами (BLUP). Это звучит неплохо.
Однако оказывается, что, хотя у нас есть непредвзятые прогнозы и минимальная дисперсия среди всех непредвзятых прогнозов, дисперсия все еще может быть довольно большой. Что еще более важно, мы можем иногда вводить «небольшое» смещение и одновременно сохранять «большую» дисперсию - и, если компромисс будет правильным, мы можем получить меньшую погрешность прогнозирования с помощью смещенной (более низкой дисперсии) модели, чем с непредвзятой ( более высокая дисперсия) одна. Это называется «компромиссом смещения дисперсии», и этот вопрос и его ответы являются поучительными: когда предвзятая оценка предпочтительнее объективной?
И регуляризация, такая как лассо, регрессия гребня, эластичная сетка и так далее, делают именно это. Они тянут модель к нулю. (Байесовские подходы похожи - они притягивают модель к априорам.) Таким образом, регуляризованные модели будут смещены по сравнению с нерегулярными моделями, но также будут иметь меньшую дисперсию. Если вы выберете правильное право регуляризации, результатом будет прогноз с меньшей ошибкой.
Если вы ищете «регуляризацию компромисса смещения» или подобное, вы получите пищу для размышлений. Эта презентация, например, полезна.
λλ→∞λλтакая, что модель является нулевой моделью. Всегда держите ваши квантификаторы прямыми.) Однако, нулевая модель, конечно, также будет иметь гигантский уклон. В конце концов, это не заботится о реальных наблюдениях.
λ
(Я пишу небольшую статью по этому вопросу, которая, надеюсь, будет довольно доступной. Я добавлю ссылку, как только она станет доступной.)
Прочитайте этот ответ для получения дополнительной информации. По-видимому, парадокс Штейна связан с известной теоремой о том, что процесс движения Броуана в 3 или более измерениях не является рекуррентным (блуждает повсюду, не возвращаясь к началу координат), тогда как 1 и 2-мерные броуновцы являются рекуррентными.
Парадокс Штейна держится независимо от того, к чему вы сжимаетесь, хотя на практике лучше, если вы сжимаетесь к истинным значениям параметров. Это то, что делают байесовцы. Они думают, что знают, где находится истинный параметр, и стремятся к нему. Затем они утверждают, что Штейн подтверждает их существование.
Это называется парадоксом именно потому, что оно бросает вызов нашей интуиции. Однако, если вы думаете о броуновском движении, единственный способ вернуть трехмерное броуновское движение к исходному положению - наложить на ступени штраф за затухание. Оценка усадки также накладывает своего рода демпфирование на оценки (уменьшает дисперсию), поэтому оно работает.
источник