При каких обстоятельствах следует рассмотреть использование методов регуляризации (регрессия ребра, лассо или наименьших углов) вместо OLS?
В случае, если это поможет вести дискуссию, мой главный интерес - повышение точности прогнозирования.
При каких обстоятельствах следует рассмотреть использование методов регуляризации (регрессия ребра, лассо или наименьших углов) вместо OLS?
В случае, если это поможет вести дискуссию, мой главный интерес - повышение точности прогнозирования.
Краткий ответ: всякий раз, когда вы сталкиваетесь с одной из следующих ситуаций:
Регрессия гребня обычно дает лучшие прогнозы, чем решение OLS, за счет лучшего компромисса между смещением и дисперсией. Его основным недостатком является то, что все предикторы хранятся в модели, поэтому не очень интересно, если вы ищете экономную модель или хотите применить какой-то выбор функций.
Для достижения разреженности лассо является более подходящим, но оно не обязательно даст хорошие результаты при наличии высокой коллинеарности (было замечено, что, если предикторы являются высококоррелированными, в эффективности прогнозирования лассо преобладает регрессия гребня). Вторая проблема со штрафом L1 состоит в том, что решение лассо не определяется однозначно, когда число переменных превышает количество субъектов (это не случай регрессии гребня). Последний недостаток лассо состоит в том, что он имеет тенденцию выбирать только одну переменную среди группы предикторов с высокими попарными корреляциями. В этом случае существуют альтернативные решения, такие как группа (т. Е. Достижение усадки на блоке ковариат, то есть некоторые блоки коэффициентов регрессии точно равны нулю) или слияниелассо. Графический Lasso также предлагает многообещающие возможности для GGMs (см R glasso пакет).
Но, определенно, критерии эластичной сети , представляющие собой комбинацию штрафов L1 и L2, обеспечивают как усадку, так и автоматический выбор переменных, и это позволяет сохранять переменные в случае, когда . Следуя Zou и Hastie (2005), он определяется как аргумент, который минимизирует (более )
где и,
Лассо может быть вычислено с помощью алгоритма, основанного на спуске координат, как описано в недавней статье Фридмана и др., Пути регуляризации для обобщенных линейных моделей с помощью спуска координат (JSS, 2010) или алгоритма LARS. В R, то штрафовали , Lars или biglars и glmnet пакеты полезные пакеты; в Python есть набор инструментов scikit.learn с обширной документацией по алгоритмам, используемым для применения всех трех видов схем регуляризации.
Что касается общих ссылок, страница «Лассо» содержит большую часть того, что необходимо для начала работы с регрессией лассо, и технические подробности о штрафе L1, и этот связанный вопрос содержит важные ссылки: Когда я должен использовать лассо против риджа?
Теоретическое обоснование использования регрессии гребня заключается в том, что ее решением является среднее заданное значение, заданное нормальным априорным коэффициентом. То есть, если вы заботитесь о квадрате ошибок и верите в нормальный априор, оценки гребня являются оптимальными.
Точно так же оценка Лассо является апостериорной модой под двойной экспоненциальной величиной перед вашими коэффициентами. Это оптимально при нулевой функции потерь.
На практике эти методы обычно повышают точность прогнозирования в ситуациях, когда у вас много коррелированных переменных, а не много данных. Хотя оценщик OLS является наилучшим линейным несмещенным, он имеет высокую дисперсию в этих ситуациях. Если вы посмотрите на компромисс между отклонениями, точность прогноза улучшится, потому что небольшое увеличение отклонения более чем компенсируется большим уменьшением дисперсии.
источник