Почему Лассо обеспечивает Выбор Переменных?

76

Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет.

Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров β . Для Лассо ограничение ||β||1t , тогда как для гребня это ||β||2t , для некоторого t .

Я видел изображение ромба и эллипса в книге, и у меня есть некоторая интуиция относительно того, почему Лассо может поразить углы ограниченной области, что подразумевает, что один из коэффициентов установлен в ноль. Однако моя интуиция довольно слабая, и я не убежден. Это должно быть легко увидеть, но я не знаю, почему это так.

Итак, я думаю, что я ищу математическое обоснование или интуитивное объяснение того, почему контуры остаточной суммы квадратов могут попасть в углы ||β||1 ограниченная область (тогда как эта ситуация маловероятна, если ограничение ||β||2 ).

Чжи Чжао
источник
Все ответы ниже являются хорошими объяснениями. Но я выложил статью с визуальным представлением. Ниже приводится ссылка medium.com/@vamsi149/...
solver149

Ответы:

70

y=βx+eβ^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

Предположим, что решение для наименьших квадратов равно некоторому , что эквивалентно предположению, что , и посмотрим, что произойдет, когда мы добавим штраф L1. С , , поэтому штрафной член равен . Производная целевой функции wrt имеет вид:β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

который, очевидно, имеет решение . β^=(yTxλ)/(xTx)

Очевидно, что увеличивая мы можем довести до нуля (при ). Однако, как только , увеличение не приведет к отрицательному результату, потому что, если писать произвольно, момент становится отрицательным, производная целевой функции изменяется на:λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

где изменение знака происходит из-за абсолютного значения природы штрафного термина; когда становится отрицательным, штрафной член становится равным , а взятие производной по приводит к . Это приводит к решению , которое явно несовместимо с (учитывая, что решение наименьших квадратов , что подразумевает иλβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). При увеличении от до происходит увеличение штрафа L1 И увеличение квадрата ошибки (по мере продвижения от решения наименьших квадратов) , поэтому мы не придерживаться .β^0<0β^=0

Должно быть интуитивно понятно, что применяется та же логика с соответствующими изменениями знака для решения наименьших квадратов с . β^<0

Однако с штрафом за наименьшие квадраты производная становится:λβ^2

2yTx+2xTxβ^+2λβ^

который, очевидно, имеет решение . Очевидно, что никакое увеличение приведет к нулю. Таким образом, штраф L2 не может выступать в качестве инструмента выбора переменной без некоторой легкой рекламы, такой как «установите оценку параметра равной нулю, если она меньше ». β^=yTx/(xTx+λ)λϵ

Очевидно, что все может измениться при переходе к многомерным моделям, например, перемещение одной оценки параметра может заставить другой сменить знак, но общий принцип тот же: функция штрафа L2 не может привести вас к нулю, потому что, написав очень эвристически, это фактически добавляет к «знаменателю» выражения для , но функция штрафа L1 может, потому что это фактически добавляет к «числителю». β^

jbowman
источник
Обеспечивает ли Лассо также выбор характеристик в случае нелинейных моделей, например, NN?
Илья
Небольшой дополнительный вопрос: как может быть , если - вектор, а - скаляр, который мы можем варьировать, чтобы найти подгонку? λ=yTxyTxλ
Екатерина Кокатюхха
Я использовал одномерный пример, так что - скаляр. Если вы решаете многомерную задачу, то умножается на вектор единиц с длиной = размер или единичной матрицей соответствующего размера, в зависимости от того, какая проблема решается. Вы можете решить это, отметив, например, что L2-норма = , и сделав подстановки в приведенных выше формулах. yTxλβzzTIz
jbowman
Можно ли было бы показать (математически?), Как знак лямбды переворачивается из-за абсолютной природы функции штрафа, поскольку я не могу следовать этому кусочку логики.
user1420372
@ user1420372 - сделали; дайте мне знать, что вы думаете.
jbowman
9

Предположим, у нас есть набор данных с y = 1 и x = [1/10 1/10] (одна точка данных, две особенности). Одним из решений является выбор одной из функций, а другой - взвешивание обеих функций. Т.е. мы можем выбрать w = [5 5] или w = [10 0].

Обратите внимание, что для нормы L1 оба имеют одинаковый штраф, но более распределенный вес имеет меньший штраф для нормы L2.

blarg
источник
8

Я думаю, что уже есть отличные ответы, но только для того, чтобы добавить некоторую интуицию относительно геометрической интерпретации:

«Лассо выполняет сжатие , так что в ограничении есть« углы », которые в двух измерениях соответствуют алмазу. Если сумма квадратов« попадает »в один из этих углов, то коэффициент, соответствующий оси, уменьшается в ноль.L1

По мере увеличения многомерный ромб имеет все большее число углов, и поэтому весьма вероятно, что некоторые коэффициенты будут установлены равными нулю. Следовательно, лассо выполняет усадку и (эффективно) выбор поднабора.p

В отличие от выбора подмножества, ребро выполняет мягкую настройку порога: при изменении параметра сглаживания траектория выборки оценок непрерывно перемещается в ноль ».

Источник: https://onlinecourses.science.psu.edu/stat857/book/export/html/137.

Эффект можно хорошо визуализировать, когда цветные линии - это пути коэффициентов регрессии, сужающиеся к нулю.

введите описание изображения здесь

«Хребетная регрессия сжимает все коэффициенты регрессии до нуля; лассо стремится дать набор нулевых коэффициентов регрессии и приводит к разреженному решению».

введите описание изображения здесь

Источник: https://onlinecourses.science.psu.edu/stat857/node/158.

vonjd
источник