Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет.
Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров . Для Лассо ограничение , тогда как для гребня это , для некоторого .
Я видел изображение ромба и эллипса в книге, и у меня есть некоторая интуиция относительно того, почему Лассо может поразить углы ограниченной области, что подразумевает, что один из коэффициентов установлен в ноль. Однако моя интуиция довольно слабая, и я не убежден. Это должно быть легко увидеть, но я не знаю, почему это так.
Итак, я думаю, что я ищу математическое обоснование или интуитивное объяснение того, почему контуры остаточной суммы квадратов могут попасть в углы ограниченная область (тогда как эта ситуация маловероятна, если ограничение ).
Ответы:
Предположим, что решение для наименьших квадратов равно некоторому , что эквивалентно предположению, что , и посмотрим, что произойдет, когда мы добавим штраф L1. С , , поэтому штрафной член равен . Производная целевой функции wrt имеет вид:β^>0 yTx>0 β^>0 |β^|=β^ 2λβ β^
который, очевидно, имеет решение .β^=(yTx−λ)/(xTx)
Очевидно, что увеличивая мы можем довести до нуля (при ). Однако, как только , увеличение не приведет к отрицательному результату, потому что, если писать произвольно, момент становится отрицательным, производная целевой функции изменяется на:λ β^ λ=yTx β^=0 λ β^
где изменение знака происходит из-за абсолютного значения природы штрафного термина; когда становится отрицательным, штрафной член становится равным , а взятие производной по приводит к . Это приводит к решению , которое явно несовместимо с (учитывая, что решение наименьших квадратов , что подразумевает иλ β −2λβ β −2λ β^=(yTx+λ)/(xTx) β^<0 >0 yTx>0 λ>0 ). При увеличении от до происходит увеличение штрафа L1 И увеличение квадрата ошибки (по мере продвижения от решения наименьших квадратов) , поэтому мы не придерживаться .β^ 0 <0 β^=0
Должно быть интуитивно понятно, что применяется та же логика с соответствующими изменениями знака для решения наименьших квадратов с .β^<0
Однако с штрафом за наименьшие квадраты производная становится:λβ^2
который, очевидно, имеет решение . Очевидно, что никакое увеличение приведет к нулю. Таким образом, штраф L2 не может выступать в качестве инструмента выбора переменной без некоторой легкой рекламы, такой как «установите оценку параметра равной нулю, если она меньше ».β^=yTx/(xTx+λ) λ ϵ
Очевидно, что все может измениться при переходе к многомерным моделям, например, перемещение одной оценки параметра может заставить другой сменить знак, но общий принцип тот же: функция штрафа L2 не может привести вас к нулю, потому что, написав очень эвристически, это фактически добавляет к «знаменателю» выражения для , но функция штрафа L1 может, потому что это фактически добавляет к «числителю».β^
источник
Предположим, у нас есть набор данных с y = 1 и x = [1/10 1/10] (одна точка данных, две особенности). Одним из решений является выбор одной из функций, а другой - взвешивание обеих функций. Т.е. мы можем выбрать w = [5 5] или w = [10 0].
Обратите внимание, что для нормы L1 оба имеют одинаковый штраф, но более распределенный вес имеет меньший штраф для нормы L2.
источник
Я думаю, что уже есть отличные ответы, но только для того, чтобы добавить некоторую интуицию относительно геометрической интерпретации:
«Лассо выполняет сжатие , так что в ограничении есть« углы », которые в двух измерениях соответствуют алмазу. Если сумма квадратов« попадает »в один из этих углов, то коэффициент, соответствующий оси, уменьшается в ноль.L1
По мере увеличения многомерный ромб имеет все большее число углов, и поэтому весьма вероятно, что некоторые коэффициенты будут установлены равными нулю. Следовательно, лассо выполняет усадку и (эффективно) выбор поднабора.p
В отличие от выбора подмножества, ребро выполняет мягкую настройку порога: при изменении параметра сглаживания траектория выборки оценок непрерывно перемещается в ноль ».
Источник: https://onlinecourses.science.psu.edu/stat857/book/export/html/137.
Эффект можно хорошо визуализировать, когда цветные линии - это пути коэффициентов регрессии, сужающиеся к нулю.
«Хребетная регрессия сжимает все коэффициенты регрессии до нуля; лассо стремится дать набор нулевых коэффициентов регрессии и приводит к разреженному решению».
Источник: https://onlinecourses.science.psu.edu/stat857/node/158.
источник