Когда использовать методы регуляризации для регрессии?

83

При каких обстоятельствах следует рассмотреть использование методов регуляризации (регрессия ребра, лассо или наименьших углов) вместо OLS?

В случае, если это поможет вести дискуссию, мой главный интерес - повышение точности прогнозирования.

NPE
источник

Ответы:

75

Краткий ответ: всякий раз, когда вы сталкиваетесь с одной из следующих ситуаций:

  • большое количество переменных или низкий коэффициент нет. наблюдения нет. переменные (включая случай ),np
  • высокая коллинеарность,
  • поиск разреженного решения (т. е. выбор функции внедрения при оценке параметров модели), или
  • учет группировки переменных в многомерном наборе данных.

Регрессия гребня обычно дает лучшие прогнозы, чем решение OLS, за счет лучшего компромисса между смещением и дисперсией. Его основным недостатком является то, что все предикторы хранятся в модели, поэтому не очень интересно, если вы ищете экономную модель или хотите применить какой-то выбор функций.

Для достижения разреженности лассо является более подходящим, но оно не обязательно даст хорошие результаты при наличии высокой коллинеарности (было замечено, что, если предикторы являются высококоррелированными, в эффективности прогнозирования лассо преобладает регрессия гребня). Вторая проблема со штрафом L1 состоит в том, что решение лассо не определяется однозначно, когда число переменных превышает количество субъектов (это не случай регрессии гребня). Последний недостаток лассо состоит в том, что он имеет тенденцию выбирать только одну переменную среди группы предикторов с высокими попарными корреляциями. В этом случае существуют альтернативные решения, такие как группа (т. Е. Достижение усадки на блоке ковариат, то есть некоторые блоки коэффициентов регрессии точно равны нулю) или слияниелассо. Графический Lasso также предлагает многообещающие возможности для GGMs (см R glasso пакет).

Но, определенно, критерии эластичной сети , представляющие собой комбинацию штрафов L1 и L2, обеспечивают как усадку, так и автоматический выбор переменных, и это позволяет сохранять переменные в случае, когда . Следуя Zou и Hastie (2005), он определяется как аргумент, который минимизирует (более )m>pnpβ

L(λ1,λ2,β)=YXβ2+λ2β2+λ1β1

где и,β2=j=1pβj2β1=j=1p|βj|

Лассо может быть вычислено с помощью алгоритма, основанного на спуске координат, как описано в недавней статье Фридмана и др., Пути регуляризации для обобщенных линейных моделей с помощью спуска координат (JSS, 2010) или алгоритма LARS. В R, то штрафовали , Lars или biglars и glmnet пакеты полезные пакеты; в Python есть набор инструментов scikit.learn с обширной документацией по алгоритмам, используемым для применения всех трех видов схем регуляризации.

Что касается общих ссылок, страница «Лассо» содержит большую часть того, что необходимо для начала работы с регрессией лассо, и технические подробности о штрафе L1, и этот связанный вопрос содержит важные ссылки: Когда я должен использовать лассо против риджа?

хл
источник
1
Что если у меня много наблюдений с относительно небольшим числом переменных, но с очень низким отношением сигнал / шум? Настолько низко, что переоснащение - очень реальная проблема. Разве регуляризация была бы разумной попыткой улучшить точность прогнозирования?
NPE
1
@aix Это зависит от того, что вы на самом деле называете несколькими переменными, и с какими переменными вы имеете дело. Но я думаю, что в твоем случае предпочтение отдается хребту. Вы также можете взглянуть на регрессию бустер- хребта (Tutz & Binder, 2005). Оценка наказания за ОД была также предложена в качестве встроенного метода предотвращения переоснащения; см., например, Оценка максимального правдоподобия для прогнозирования бинарных результатов: Moons KG, Donders AR, Steyerberg EW, Harrell FE. J. Clin. Epidemiol. 2004, 57 (12): 1262–70.
ЧЛ
20

Теоретическое обоснование использования регрессии гребня заключается в том, что ее решением является среднее заданное значение, заданное нормальным априорным коэффициентом. То есть, если вы заботитесь о квадрате ошибок и верите в нормальный априор, оценки гребня являются оптимальными.

Точно так же оценка Лассо является апостериорной модой под двойной экспоненциальной величиной перед вашими коэффициентами. Это оптимально при нулевой функции потерь.

На практике эти методы обычно повышают точность прогнозирования в ситуациях, когда у вас много коррелированных переменных, а не много данных. Хотя оценщик OLS является наилучшим линейным несмещенным, он имеет высокую дисперсию в этих ситуациях. Если вы посмотрите на компромисс между отклонениями, точность прогноза улучшится, потому что небольшое увеличение отклонения более чем компенсируется большим уменьшением дисперсии.

ncray
источник