Пошаговые алгоритмические методы выбора переменных имеют тенденцию выбирать для моделей, которые смещают более или менее каждую оценку в регрессионных моделях ( s и их SE, p-значения , F- статистику и т. Д.), И примерно с такой же вероятностью исключают истинные предикторы, как включают ложные предикторы согласно достаточно зрелой литературе по моделированию.
LASSO страдает такими же конкретными способами, когда используется для выбора переменных?
11.4.1 Variable-Selection Consistency for the Lasso
Ответы:
Вероятностная интерпретация частых выражений вероятности, p-значений и так далее для модели LASSO и ступенчатой регрессии не верна.
Эти выражения переоценивают вероятность. Например, 95-процентный доверительный интервал для некоторого параметра должен означать, что у вас есть 95-процентная вероятность того, что метод приведет к интервалу с истинной переменной модели внутри этого интервала.
Однако подобранные модели не являются результатом типичной единственной гипотезы, и вместо этого мы выбираем вишню (выбираем из множества возможных альтернативных моделей), когда делаем ступенчатую регрессию или регрессию LASSO.
Не имеет смысла оценивать правильность параметров модели (особенно когда есть вероятность, что модель не верна).
Пример: приведенный ниже график, который отображает результаты игрушечной модели для некоторого сигнала, который представляет собой линейную сумму из 10 гауссовых кривых (это может, например, напоминать анализ в химии, где сигнал для спектра считается линейной суммой несколько компонентов). Сигнал 10 кривых снабжен моделью из 100 компонентов (гауссовых кривых с различным средним значением) с использованием LASSO. Сигнал хорошо оценен (сравните красную и черную кривые, которые достаточно близки). Но фактические базовые коэффициенты не очень хорошо оценены и могут быть совершенно неверными (сравните красные и черные столбцы с точками, которые не совпадают). Смотрите также последние 10 коэффициентов:
Модель LASSO действительно выбирает коэффициенты, которые являются очень приблизительными, но с точки зрения самих коэффициентов это означает большую ошибку, когда коэффициент, который должен быть ненулевым, оценивается как нулевой, а соседний коэффициент, который должен быть нулевым, оценивается как ненулевая. Любые доверительные интервалы для коэффициентов будут иметь мало смысла.
Фитинг LASSO
Пошаговая установка
Для сравнения, та же самая кривая может быть снабжена пошаговым алгоритмом, приводящим к изображению ниже. (с аналогичными проблемами, что коэффициенты близки, но не совпадают)
Даже если вы учитываете точность кривой (а не параметры, которые в предыдущем пункте ясно показали, что это не имеет смысла), вам придется иметь дело с переоснащением. Когда вы выполняете процедуру подбора с LASSO, вы используете данные обучения (для подбора моделей с различными параметрами) и данные тестирования / проверки (для настройки / поиска, который является лучшим параметром), но вы также должны использовать третий отдельный набор данных испытаний / проверки, чтобы узнать производительность данных.
Р-значение или что-то симулированное не сработает, потому что вы работаете над настроенной моделью, которая выбирает вишню и отличается (гораздо большие степени свободы) от обычного метода линейной аппроксимации.
Я думал, что основная причина использования LASSO вместо ступенчатой регрессии заключается в том, что LASSO позволяет выбирать менее жадные параметры, на которые меньше влияет мультиколлинеарность. (больше различий между LASSO и пошаговым: превосходство LASSO над прямым выбором / обратным устранением с точки зрения ошибки предсказания перекрестной проверки модели )
Код для примера изображения
источник
- Фрэнк Харрелл
- Адриан
- Адриан
источник