Выбор диапазона и плотности сетки для параметра регуляризации в LASSO

Тем временем я изучаю LASSO (оператор наименьшей абсолютной усадки и выбора). Я вижу, что оптимальное значение параметра регуляризации можно выбрать перекрестной проверкой. Я также вижу в регрессии гребня и во многих методах, которые применяют регуляризацию, мы можем использовать CV, чтобы найти оптимальный параметр регуляризации (скажем, штраф). Теперь мой вопрос о начальных значениях верхней и нижней границы параметра и о том, как определить длину последовательности.

Если быть точным, предположим, что у нас есть проблема и мы хотим найти оптимальное значение для штрафа, . Тогда как мы можем выбрать нижнюю и верхнюю границу для ? и сколько делится между этими двумя значениями ?

L o g L i k e l i h o o d = (y - x β)^{'} (y - x β) + λ \sum | β |_{1}

$LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1$

λ

$\lambda$

λ \in [a = ?, b = ?]

$\lambda \in [a=?,b=?]$

\frac{(b - a)}{k = ?}

$\frac{(b-a)}{k=?}$

lasso regularization shrinkage TPArrow
источник

Связанный вопрос здесь .

Ричард Харди

Возможное дублирование тонкости сетки и переоснащение с использованием регуляризации (LASSO, гребень, эластичная сетка)

Sycorax говорит, что восстановите Монику

Эта методология описана в статье о путях регуляризации glmnet для обобщенных линейных моделей с помощью координатного спуска . Хотя здесь используется методология для общего случая регуляризации как и , она также должна применяться к LASSO (только ). $L^1$ $L^2$ $L^1$

Решение для максимума приведено в разделе 2.5. $\lambda$

Когда , мы видим из (5), что останется нулевым, если . Следовательно, $\tilde\beta = 0$ $\tilde\beta_j$ $\frac{1}{N} | \langle x_j , y \rangle | < \lambda \alpha$ $N \alpha \lambda_{max} = \max_l | \langle x_l , y \rangle |$

То есть мы наблюдаем, что правило обновления для бета приводит к обнулению всех оценок параметров для как определено выше. $\lambda > \lambda_{max}$

Определение и количества точек сетки кажется менее принципиальным. В glmnet они устанавливают , а затем выбирают сетку из одинаково расположенных точек в логарифмическом масштабе. $\lambda_{min}$ $\lambda_{min} = 0.001 * \lambda_{max}$ $100$

Это хорошо работает на практике, при моем широком использовании glmnet я никогда не находил эту сетку слишком грубой.

В случае LASSO ( ) все работает лучше, так как метод LARS обеспечивает точное вычисление того, когда различные предикторы входят в модель. Истинный LARS не выполняет поиск в сетке по , вместо этого производит точное выражение для путей решения для коэффициентов. Вот подробный взгляд на точное вычисление путей коэффициентов в случае двух предикторов. $L^1$ $\lambda$

Случай для нелинейных моделей (т. Е. Логистических, пуассоновских) более сложен. На высоком уровне сначала получается квадратичное приближение к функции потерь при начальных параметрах , а затем для определения используется приведенный выше расчет . Точное вычисление путей параметров в этих случаях невозможно, даже если обеспечивается только регуляризация , поэтому поиск по сетке является единственным вариантом. $\beta = 0$ $\lambda_{max}$ $L^1$

Выборочные веса также усложняют ситуацию, внутренние продукты должны быть заменены в соответствующих местах на взвешенные внутренние продукты.

Мэтью Друри
источник

Выбор диапазона и плотности сетки для параметра регуляризации в LASSO

Ответы: