Для регрессии Лассо предположим что лучшее решение (например, минимальная ошибка тестирования) выбирает k функций, так что \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ right) .K β л ы ы о = ( β л с ы о 1 , β л с ы O 2 , . . . , β л
Мы знаем, что является смещенная оценка , так почему же мы по-прежнему принимаем в качестве окончательного решения вместо более «разумного» , где - это оценка LS из частичной модели . ( обозначает столбцы соответствующие выбранным объектам).
Вкратце, почему мы используем Лассо как для выбора объектов, так и для оценки параметров, а не только для выбора переменных (и оставляем оценку выбранных объектов в OLS)?
(Кроме того, что означает, что «Лассо может выбрать не более функций»? - это размер выборки.)
источник
Ответы:
Я не верю, что что-то не так с использованием LASSO для выбора переменных, а затем с использованием OLS. Из « Элементы статистического обучения » (стр. 91)
Другой разумный подход, сходный по духу с расслабленным лассо, состоит в том, чтобы использовать лассо один раз (или несколько раз в тандеме), чтобы идентифицировать группу переменных-предикторов-кандидатов. Затем используйте регрессию лучших подмножеств, чтобы выбрать лучшие предикторные переменные для рассмотрения (см. Также «Элементы статистического обучения»). Чтобы это работало, вам нужно будет уточнить группу предикторов-кандидатов до 35, что не всегда возможно. Вы можете использовать перекрестную проверку или AIC в качестве критерия, чтобы предотвратить переопределение.
источник
Если ваша цель - оптимальная производительность в сэмпле (относительно наибольшего R-квадрата), просто используйте OLS для каждой доступной переменной. Отбрасывание переменных уменьшит R-квадрат.
Если вашей целью является хорошая производительность вне выборки (что, как правило, гораздо важнее), то ваша предложенная стратегия будет страдать от двух источников переоснащения:
Цель LASSO - уменьшить оценки параметров до нуля, чтобы бороться с двумя источниками переоснащения. Прогнозы внутри выборки всегда будут хуже, чем у OLS, но есть надежда (в зависимости от силы наказания) получить более реалистичное поведение вне выборки.
Относительно : это (вероятно) зависит от реализации LASSO, которую вы используете. Вариант, Lars (регрессия наименьшего угла), легко работает при .p > nр > н р > н
источник
Что касается ОП, то почему Лассо может выбрать не более n функций:
источник