Одним из мотивов для эластичной сетки было следующее ограничение LASSO:
В случае лассо выбирает не более n переменных, прежде чем оно насыщается, из-за характера задачи выпуклой оптимизации. Кажется, это ограничивающая особенность метода выбора переменных. Более того, лассо не является четко определенным, если только ограничение на L1-норму коэффициентов не меньше определенного значения.
( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )
Я понимаю, что LASSO - это проблема квадратичного программирования, но она также может быть решена с помощью LARS или поэлементного градиентного спуска. Но я не понимаю, где в этих алгоритмах я сталкиваюсь с проблемой, если где - число предикторов, а - размер выборки. И почему эта проблема решается с помощью эластичной сети, где я увеличиваю задачу до переменных, которые явно превышают .
источник
Ответы:
Как уже говорилось, это не свойство алгоритма, а проблема оптимизации. Условия KKT в основном дают то, что для того, чтобы коэффициент был ненулевым, он должен соответствовать фиксированной корреляции с остатком | X t j ( y - X β ) | = λ ( λ - параметр регуляризации).βj |Xtj(y−Xβ)|=λ λ
После разрешения различных сложностей с абсолютным значением и т. Д. У вас остается линейное уравнение для каждого ненулевого коэффициента. Поскольку ранг матрицы не более n, когда p > n , это число уравнений, которые могут быть решены, и, следовательно, существует не более n ненулей (если нет избыточностей).X n p>n
Кстати, это верно для любой функции потерь, а не только для стандартного лассо с потерями . Так что на самом деле это свойство штрафа Лассо. Есть много работ, которые показывают это представление KKT и вытекающие из этого выводы, я могу указать на нашу статью: Rosset and Zhu, Piecewise Linear Regularized Solutions Paths, Annals of Stats 2007 и ссылки в них.L2
источник
Другое объяснение заключается в следующем: если , ранг матрицы данных X не более n , поэтому размерность его (правого) нулевого пространства не менее p - n . Запишите любой вектор в этом пустом пространстве как z . Тогда в любой возможной точке β всегда можно двигаться в этом p - n- мерном нулевом пространстве к координатным осям p -мерного окружающего пространства, чтобы достичь β + z , где (не более) n β j s ненулевой, и целевая функция LASSOn<p X n p−n z β p−n p β+z n βj
уменьшился.
источник