Существуют ли аналитические результаты или экспериментальные работы относительно оптимального выбора коэффициента штрафного члена . Под оптимальным я подразумеваю параметр, который максимизирует вероятность выбора наилучшей модели или минимизирует ожидаемые потери. Я спрашиваю, потому что часто нецелесообразно выбирать параметр путем перекрестной проверки или начальной загрузки, либо из-за большого количества случаев проблемы, либо из-за размера рассматриваемой проблемы. Единственный положительный результат, о котором я знаю, это Candes and Plan, идеальный выбор модели путем минимизации .
model-selection
lasso
shrinkage
с промежутками
источник
источник
Ответы:
Оформить теорему 5.1 этого Bickel et al. , Статистически оптимальный выбор с точки зрения ошибки : (с высокой вероятностью) для константы .∥y−y^(λ)∥22 λ=Aσnoiselogpn−−−−−√ A>22–√
источник
Я полагаю, что вас больше всего интересует регрессия, как и в цитируемой статье, а не другие применения -пенальти (скажем, графического лассо).ℓ1
Затем я полагаю, что некоторые ответы можно найти в статье « О степенях свободы» лассо, выполненной Zou et al. Вкратце, он дает аналитическую формулу для эффективных степеней свободы , которая для квадрата потери ошибок позволяет заменить CV аналитической статистикой типа , скажем.Cp
Еще одно место, которое нужно посмотреть, - это селектор Данцига: статистическая оценка, когда p намного больше n, и документы для обсуждения в том же выпуске Annals of Statistics. Насколько я понимаю, они решают проблему, тесно связанную с регрессией лассо, но с фиксированным выбором коэффициента штрафа. Но, пожалуйста, ознакомьтесь с документами для обсуждения.
Если вы не заинтересованы в прогнозировании, но в выборе модели, я не знаю аналогичных результатов. Оптимальные модели прогнозирования часто приводят к слишком большому количеству выбранных переменных в регрессионных моделях. В статье « Выбор стабильности» Майнсхаузен и Бюльманн представляют метод субсэмплинга, более полезный для выбора модели, но он может быть слишком сложным в вычислительном отношении для ваших нужд.
источник
Так как этот вопрос был задан, был достигнут интересный прогресс. Например, рассмотрим эту статью
Они предлагают метод выбора параметра настройки LASSO с гарантированными конечными выборочными гарантиями для выбора модели. Как говорится в документе, «Для стандартных схем калибровки, в том числе перекрестной проверки, в литературе отсутствуют сопоставимые гарантии. Фактически нам неизвестны какие-либо конечные гарантии образца для стандартных схем калибровки».
источник
Это не отвечает на ваш вопрос, но: в больших настройках данных может быть хорошо настроить регуляризатор с помощью одного разделения на поезд / тест, вместо того, чтобы делать это примерно 10 раз в перекрестной проверке (или больше для начальной загрузки). Размер и репрезентативность выборки, выбранной для devset, определяет точность оценки оптимального регуляризатора.
По моему опыту, удерживаемые потери относительно постоянны в широком диапазоне регуляризаторов. Я уверен, что этот факт не может иметь место для других проблем.
источник