Всегда ли упругая чистая регуляризация всегда предпочтительнее, чем Lasso & Ridge, поскольку она, похоже, решает недостатки этих методов? Что такое интуиция и какая математика стоит за эластичной сеткой?
regression
lasso
regularization
ridge-regression
elastic-net
GeorgeOfTheRF
источник
источник
Ответы:
1. Какой метод предпочтительнее?
Да, эластичная сеть всегда предпочтительнее регрессии лассо и риджа, потому что она решает ограничения обоих методов, а также включает каждый из них в качестве особых случаев. Таким образом, если решение «гребень» или «лассо», действительно, является лучшим, то любая хорошая процедура выбора модели определит это как часть процесса моделирования.
Комментарии к моему сообщению указали, что преимущества эластичной сети не безоговорочны. Я по-прежнему убежден, что общность регрессии эластичной сети все же предпочтительнее, чем самостоятельная регуляризацияL1 или L2 . В частности, я думаю, что спорные вопросы между мной и другими напрямую связаны с тем, какие предположения мы готовы сделать в отношении процесса моделирования. При наличии глубоких знаний об основных данных, некоторые методы будут предпочтительнее других. Тем не менее, мое предпочтение эластичной сети коренится в моем скептицизме, что можно с уверенностью знать, что L1 или L2 - истинная модель.
Это несколько круговой. Извините, если это немного легкомысленно, но если вы знаете, что LASSO (гребень) - лучшее решение, вы не спросите себя, как правильно его смоделировать; вам просто подойдет модель LASSO (хребет). Если вы абсолютно уверены, что правильным ответом является регрессия LASSO (ребра), то вы абсолютно уверены , что не будет причин тратить время на установку эластичной сетки. Но если вы немного менее уверены в том, что LASSO (ребро) является правильным способом для продолжения, я думаю, что имеет смысл оценить более гибкую модель и оценить, насколько сильно данные подтверждают предыдущее мнение.
Это также верно, но я думаю, что это круговая по той же причине: если вы оценили оптимальное решение и обнаружили, чтоα∉{0,1}, то это модель, которую поддерживают данные. С одной стороны, да, ваша оценочная модель не является истинной моделью, но я должен задаться вопросом, как узнать, что истинная модель имеет значениеα=1 (илиα = 0 ) до оценки любой модели. Там могут быть области, где у вас есть такие знания, но моя профессиональная работа не входит в их число.
Это актуально, только если у вас жесткие ограничения времени / компьютера; в противном случае это просто неприятность. GLMNET является алгоритмом золотого стандарта для оценки решений упругих сетей. Пользователь задает некоторое значение альфа, и он использует свойства пути решения для регуляризации, чтобы быстро оценить семейство моделей для множества значений величины штрафовλ , и он часто может оценить это семейство решений быстрее, чем просто оценить одно решение для конкретного значения λ . Так что, да, использование GLMNET действительно дает вам возможность использовать методы в виде сетки (итерируйте по некоторым значениям α и позвольте GLMNET попробовать различные значения λ s), но это довольно быстро.
Это правда, но на этапе, когда кто-то обдумывает, какой метод использовать, он не будет знать, какая из эластичных сеток, ребер или LASSO является лучшей. Если одной из причин того, что лучшим решением должно быть LASSO или регрессия гребня, то мы находимся в области требований (1). Если мы все еще не уверены, какой вариант лучше, тогда мы можем протестировать решения LASSO, ребра и эластичной сетки и сделать выбор окончательной модели на этом этапе (или, если вы академик, просто напишите свой доклад обо всех трех ). Эта ситуация с предыдущей неопределенностью либо поместит нас в область требований (2), где истинная модель - LASSO / ridge, но мы не знали об этом заранее, и мы случайно выбрали неправильную модель из-за плохо идентифицированных гиперпараметров, или эластичная сетка на самом деле лучшее решение.
Надлежащая проверка модели является неотъемлемой частью любого предприятия по машинному обучению. Проверка модели также обычно является дорогостоящим шагом, поэтому можно попытаться свести к минимуму неэффективность здесь - если одна из этих неэффективностей бесполезно пытаетсяα значения которые, как известно, бесполезны, то одним из предложений может быть сделать это. Да, конечно, делайте это, если вас устраивает убедительное заявление о том, как устроены ваши данные - но мы вернулись на территорию претензий (1) и претензий (2).
2. Что такое интуиция и математика за эластичной сеткой?
Я настоятельно рекомендую прочитать литературу по этим методам, начиная с оригинальной статьи о эластичной сети. Бумага развивает интуицию и математику и очень удобочитаема. Воспроизведение его здесь будет только в ущерб объяснениям авторов. Но сводка высокого уровня состоит в том, что упругая сеть представляет собой выпуклую сумму штрафов по гребню и лассо, поэтому целевая функция для модели гауссовой ошибки выглядит какОстаточная ошибка среднеквадратической + α ⋅ Ридж Penalty + ( 1 - α ) ⋅ ЛАССО Penalty
дляα ∈ [ 0 , 1 ] .
Хуэй Цзоу и Тревор Хасти. « Регуляризация и выбор переменных с помощью эластичной сети ». JR Statistic. Soc., Том 67 (2005), часть 2., с. 301-320.
Ричард Харди отмечает, что это более подробно описано в статье Hastie et al. «Элементы статистического обучения» главы 3 и 18.
3. Что, если вы добавите дополнительныйLQ нормы ?
Это вопрос, заданный мне в комментариях:
Я ценю, что суть вопроса такова: «Если это так, как вы утверждаете, и два штрафа хороши, почему бы не добавить еще один?» Но я думаю, что ответ заключается в том, почему мы регулируем в первую очередь.
Если оставить в стороне ни одну из этих проблем, регуляризованная модель может по-прежнему превосходить модель ML, поскольку свойства усадки оценщиков являются «пессимистичными» и коэффициенты притяжения к 0.
источник
Я в целом согласен с ответом @Sycorax, но я хотел бы добавить некоторые уточнения.
Сказать, что «эластичная сетка всегда предпочтительнее, чем регрессия лассо и гребня», может быть слишком сильно. В малых или средних образцах эластичная сетка не может выбрать чистый раствор LASSO или чистый гребень, даже если первый или последний действительно является подходящим. Учитывая сильные предварительные знания, имеет смысл выбрать LASSO или гребень вместо эластичной сетки. Однако, в отсутствие предварительных знаний, эластичная сеть должна быть предпочтительным решением.
Кроме того, эластичная сетка в вычислительном отношении дороже, чем LASSO или гребень, поскольку относительный вес LASSO по сравнению с гребнем должен быть выбран с использованием перекрестной проверки. Если разумная сетка значений альфа равна [0,1] с размером шага 0,1, это будет означать, что эластичная сеть примерно в 11 раз дороже в вычислительном отношении, чем LASSO или гребень. (Поскольку LASSO и ridge не имеют одинаковой вычислительной сложности, результат является приблизительным.)
источник