LASSO отличается от выбора лучшего подмножества с точки зрения наказания и зависимости от пути.
При выборе лучшего подмножества предположительно CV использовался для определения того, что 2 предиктора дали лучшую производительность. Во время CV, коэффициенты регрессии полной величины без штрафов были бы использованы для оценки, сколько переменных включить. После того, как было принято решение использовать 2 предиктора, все комбинации 2 предикторов будут параллельно сравниваться на полном наборе данных, чтобы найти 2 для окончательной модели. Этим двум последним предикторам будут даны их коэффициенты регрессии полной величины без штрафов, как если бы они были единственными вариантами выбора с самого начала.
Вы можете думать о LASSO как о том, что начинаете с большого штрафа на сумму величин коэффициентов регрессии, причем штраф постепенно уменьшается. В результате переменные вводятся по одной за раз, причем в каждой точке во время релаксации принимается решение о том, является ли более ценным увеличение коэффициентов переменных, уже имеющихся в модели, или добавление другой переменной. Но когда вы перейдете, скажем, к модели с 2 переменными, коэффициенты регрессии, разрешенные LASSO, будут ниже по величине, чем те же самые переменные, которые были бы у стандартных регрессий без штрафных санкций, используемых для сравнения моделей с 2 и 3 переменными в выбор лучшего подмножества.
Это можно рассматривать как облегчение ввода новых переменных в LASSO, чем при выборе лучшего подмножества. Эвристически LASSO обменивает потенциально более низкие, чем фактические коэффициенты регрессии, на неопределенность того, сколько переменных следует включить. Это может включать в себя больше переменных в модели LASSO и потенциально худшую производительность для LASSO, если вы точно знали, что необходимо включить только 2 переменные. Но если вы уже знаете, сколько переменных предикторов следует включить в правильную модель, вы, вероятно, не будете использовать LASSO.
Ничто до сих пор не зависело от коллинеарности, которая приводит к различным типам произвольности в выборе переменных в лучшем подмножестве по сравнению с LASSO. В этом примере best-subset изучил все возможные комбинации 2 предикторов и выбрал лучшую из этих комбинаций. Так что лучшие 2 для этого конкретного образца данных выигрывают.
LASSO, с его зависимостью от пути добавления одной переменной за раз, означает, что ранний выбор одной переменной может повлиять, когда другие переменные, связанные с ней, войдут позже в процесс релаксации. Также возможно, чтобы переменная вводилась раньше, а затем ее коэффициент LASSO падал при входе других коррелированных переменных.
На практике выбор между коррелированными предикторами в конечных моделях с использованием любого метода сильно зависит от выборки, что можно проверить, повторив эти процессы построения моделей на выборках начальной загрузки тех же данных. Если предикторов не так уж много, и ваш основной интерес заключается в прогнозировании новых наборов данных, регрессия гребня, которая стремится сохранить все предикторы, может быть лучшим выбором.