На странице 223 «Введение в статистическое обучение» авторы суммируют различия между регрессией гребня и лассо. Они предоставляют пример (рис. 6.9) того, когда «лассо имеет тенденцию превосходить регрессию гребня с точки зрения смещения, дисперсии и MSE».
Я понимаю, почему лассо может быть желательным: это приводит к разреженным решениям, поскольку сокращает многие коэффициенты до 0, что приводит к простым и интерпретируемым моделям. Но я не понимаю, как это может превзойти хребет, когда интерес представляют только прогнозы (то есть, как в данном примере MSE существенно ниже?).
В случае риджа, если многие предикторы почти не влияют на ответ (при том, что несколько предикторов оказывают большое влияние), их коэффициенты не будут просто сокращены до небольшого числа, очень близкого к нулю ... что приведет к чему-то очень похожему на лассо ? Так почему же у финальной модели производительность хуже, чем у лассо?
источник
Ответы:
Вы правы, чтобы задать этот вопрос. В целом, когда используется правильное правило оценки точности (например, среднеквадратическая ошибка прогноза), регрессия гребня будет превосходить лассо. Лассо тратит часть информации, пытаясь найти «правильных» предикторов, и во многих случаях это даже не здорово. Относительная производительность двух будет зависеть от распределения истинных коэффициентов регрессии. Если у вас есть небольшая доля ненулевых коэффициентов на самом деле, лассо может работать лучше. Лично я использую ридж почти все время, когда заинтересован в точности прогнозирования.
источник
Я думаю, что конкретная схема примера, на который вы ссылаетесь, является ключом к пониманию того, почему лассо превосходит ридж: только 2 из 45 предикторов действительно актуальны.
Это граничит с патологическим случаем: лассо, специально предназначенное для облегчения сокращения до нуля, работает точно так, как задумано, в то время как Риджу придется иметь дело с большим количеством бесполезных терминов (даже если их эффект сводится к нулю, он все еще ненулевой эффект).
источник