Из того, что я знаю, использование лассо для выбора переменных решает проблему коррелированных входных данных. Кроме того, поскольку он эквивалентен регрессии наименьшего угла, он не медленный в вычислительном отношении. Тем не менее, многие люди (например, те, кого я знаю, занимаюсь био-статистикой), все еще предпочитают пошаговый или поэтапный выбор переменных. Есть ли практические недостатки использования лассо, которые делают его неблагоприятным?
regression
feature-selection
lasso
Xuexue
источник
источник
Ответы:
Нет причин делать пошаговый выбор. Это просто неправильно.
LASSO / LAR - лучшие автоматические методы. Но это автоматические методы. Они позволяют аналитику не думать.
Во многих анализах некоторые переменные должны быть в модели НЕЗАВИСИМО от любой меры значимости. Иногда они являются необходимыми управляющими переменными. В других случаях обнаружение небольшого эффекта может быть существенно важным.
источник
Если вы заботитесь только об ошибке предсказания и не заботитесь о интерпретируемости, случайном выводе, простоте модели, тестах коэффициентов и т. Д., Почему вы все еще хотите использовать модель линейной регрессии?
Вы можете использовать что-то вроде повышения в деревьях решений или поддержки векторной регрессии и получить лучшее качество прогноза и при этом избежать переобучения в обоих упомянутых случаях. То есть Лассо, возможно, не лучший выбор для получения наилучшего качества прогноза.
Если мое понимание верно, Лассо предназначен для ситуаций, когда вы все еще интересуетесь самой моделью, а не только предсказаниями. То есть - смотрите выбранные переменные и их коэффициенты, каким-то образом интерпретируйте и т. Д. И для этого - Лассо может быть не лучшим выбором в определенных ситуациях, как обсуждается в других вопросах здесь.
источник
LASSO поощряет уменьшение коэффициентов до 0, то есть отбрасывание этих отклонений от вашей модели. Напротив, другие методы регуляризации, такие как гребень, имеют тенденцию сохранять все изменения.
Поэтому я бы порекомендовал подумать, имеет ли это отбрасывание смысл для ваших данных. Например, рассмотрите возможность проведения клинического диагностического теста либо по данным генного микрочипа, либо по данным колебательной спектроскопии.
Вы ожидаете, что некоторые гены несут соответствующую информацию, но многие другие гены - просто шум по отношению. ваше приложение. Отбрасывание этих вариантов - совершенно разумная идея.
В отличие от этого, наборы колебательных спектроскопических данных (хотя обычно имеют схожие размеры по сравнению с данными микрочипов), как правило, имеют релевантную информацию, «размазанную» по большей части спектра (корреляция). В этой ситуации запрос регуляризации отбрасывать переменные не является особенно разумным подходом. Тем более что другие методы регуляризации, такие как PLS, более приспособлены к данным этого типа.
Элементы статистического обучения дают хорошее обсуждение LASSO и противопоставляет его другим методам регуляризации.
источник
Если два предиктора сильно коррелированы, LASSO может в конечном итоге отбросить один довольно произвольно. Это не очень хорошо, когда вы хотите делать прогнозы для группы населения, где эти два предиктора не имеют сильной корреляции, и, возможно, причина для предпочтения регрессии гребня в этих обстоятельствах.
Вы могли бы также подумать, что стандартизация предикторов (например, когда коэффициенты «большие» или «маленькие») довольно произвольна и озадачена (как и я) разумными способами стандартизации категориальных предикторов.
источник
Лассо полезно только в том случае, если вы ограничиваете себя в рассмотрении моделей, которые являются линейными по параметрам, подлежащим оценке. Другими словами, лассо не оценивает, выбрали ли вы правильную форму отношений между независимой и зависимой (ыми) переменной (ами).
Весьма вероятно, что в произвольном наборе данных могут быть нелинейные, интерактивные или полиномиальные эффекты. Однако эти альтернативные спецификации модели будут оцениваться только в том случае, если пользователь проводит этот анализ; лассо не является заменой для этого.
Для простого примера того, как это может пойти не так, рассмотрим набор данных, в котором непересекающиеся интервалы независимой переменной будут предсказывать чередующиеся высокие и низкие значения зависимой переменной. Сложно будет разобраться, используя обычные линейные модели, поскольку в манифестных переменных, представленных для анализа, нет линейного эффекта (но может быть полезно некоторое преобразование манифестных переменных). Оставленный в его явной форме, лассо неправильно сделает вывод, что эта особенность является посторонней и обнулит его коэффициент, потому что нет никакой линейной связи. С другой стороны, поскольку в данных имеются совмещенные по оси расщепления, древовидная модель, такая как случайный лес, вероятно, будет работать довольно хорошо.
источник
Одним из практических недостатков лассо и других методов регуляризации является нахождение оптимального коэффициента регуляризации, лямбда. Использование перекрестной проверки для нахождения этого значения может быть таким же дорогим, как и пошаговые методы выбора.
источник
Я не эксперт LASSO, но я эксперт во временных рядах. Если у вас есть данные временного ряда или пространственные данные, я бы старательно избегал решения, основанного на независимых наблюдениях. Кроме того, если есть неизвестные детерминированные эффекты, которые испортили ваши данные (сдвиги уровней / временные тренды и т. Д.), То LASSO был бы еще менее хорошим молотом. В заключение, когда у вас есть данные временных рядов, вам часто нужно сегментировать данные, когда они сталкиваются с параметрами или дисперсией ошибок, которые меняются со временем.
источник
Это уже довольно старый вопрос, но я чувствую, что в то же время большинство ответов здесь довольно устарели (и тот, который проверен как правильный ответ, совершенно неверен imho).
Во-первых, с точки зрения получения хороших результатов прогнозирования не всегда верно, что LASSO всегда лучше, чем пошаговый. В статье «Расширенные сравнения выбора наилучшего подмножества, прямого пошагового выбора и лассо» Хасси и др. (2017) приводится подробное сравнение ступенчатого прямого перехода, LASSO и некоторых вариантов LASSO, таких как расслабленный LASSO, а также лучшего подмножества, и они покажите, что ступенчато иногда лучше, чем LASSO. Хотя вариант LASSO - расслабленный LASSO - был тем, который произвел наивысшую точность прогнозирования модели в самом широком диапазоне обстоятельств. Заключение о том, что лучше, во многом зависит от того, что вы считаете лучшим, хотя, например, будет ли это самой высокой точностью прогнозирования или выбора наименьшего количества ложноположительных переменных.
Существует целый зоопарк редких методов обучения, большинство из которых лучше, чем LASSO. Например , есть Meinhausen в расслабилась ЛАССО , адаптивный ЛАССО и SCAD и MCP нарушает регресс как это реализовано в
ncvreg
пакете, причем все они имеют меньше уклон , чем стандартный LASSO и так preferrable. Кроме того, если вас интересует абсолютное разреженное решение с наилучшей эффективностью прогнозирования, тогда L0 штрафует регрессию (или лучшее подмножество, т.е. основано на штрафовании nr ненулевых коэффициентов, а не сумме абсолютного значения коэффициентов в LASSO) лучше, чем LASSO, см., например,l0ara
пакет, который аппроксимирует L0-штрафные GLM с использованием итеративной процедуры адаптивного гребняи который, в отличие от LASSO, также очень хорошо работает с высококоллинеарными переменными иL0Learn
пакетом , который может соответствовать моделям регрессии с штрафом L0, использующим снижение координат , потенциально в сочетании с штрафом L2 для регуляризации коллинеарности.Итак, вернемся к исходному вопросу: почему бы не использовать LASSO для выбора переменных? :
(1) потому что коэффициенты будут сильно смещены, что улучшено в расслабленной регрессии LASSO, MCP и SCAD и полностью разрешено в регрессивной штрафной регрессии L0 (которая имеет свойство полного оракула, то есть она может выбирать как причинные переменные, так и повтор) несмещенные коэффициенты, также для p> n случаев)
(2) потому что он имеет тенденцию давать намного больше ложных срабатываний, чем регрессия, оштрафованная на L0 (в моих тестах он
l0ara
работал лучше всего, то есть итеративный адаптивный гребень, за которым следуетL0Learn
)(3) потому что он не может хорошо справляться с коллинеарными переменными (он, по сути, просто выбирает одну из коллинеарных переменных) - итеративный адаптивный гребень /
l0ara
и штрафы L0L2L0Learn
гораздо лучше справляются с этим.Конечно, в общем случае вам все равно придется использовать перекрестную проверку для настройки параметров регуляризации для получения оптимальной производительности прогнозирования, но это не проблема. Кроме того, вы можете сделать высокоразмерный вывод для ваших параметров и рассчитать 95% доверительные интервалы для ваших коэффициентов, если хотите, с помощью непараметрической начальной загрузки (даже принимая во внимание неопределенность в выборе оптимальной регуляризации, если вы выполняете перекрестную проверку также для каждого набора начальной загрузки). хотя это становится довольно медленным тогда).
В вычислительном отношении LASSO подходит не медленнее, чем пошаговые подходы, между прочим, конечно, нет, если для оптимизации регуляризации LASSO используется высокооптимизированный код, который использует теплые запуски (вы можете сравнить себя, используя
fs
команду для пошаговогоlasso
перехода вперед и для LASSO вbestsubset
пакете). Тот факт, что поэтапные подходы все еще популярны, вероятно, связан с ошибочным мнением многих о том, что можно просто сохранить свою окончательную модель и сообщить о связанных с ней значениях p, что на самом деле неправильно, поскольку этого не происходит. учитывайте неопределенность, обусловленную выбором вашей модели, что приводит к слишком оптимистическим значениям p.Надеюсь это поможет?
источник
Одна большая проблема заключается в сложности проверки гипотез. Вы не можете легко понять, какие переменные являются статистически значимыми с Лассо. С помощью ступенчатой регрессии вы можете до некоторой степени проводить проверку гипотез, если вы внимательно относитесь к множественному тестированию.
источник