Почему лямбда «в пределах одной стандартной ошибки от минимума» является рекомендованным значением для лямбда в упругой чистой регрессии?

24

Я понимаю, какую роль играет лямбда в регрессии эластичной сети. И я могу понять, почему можно выбрать lambda.min, значение лямбды, которое минимизирует перекрестную проверку.

Мой вопрос: где в статистической литературе рекомендуется использовать lambda.1se, то есть значение lambda, которое минимизирует ошибку CV плюс одну стандартную ошибку ? Кажется, я не могу найти формальную цитату или даже причину, по которой это часто является хорошей ценностью. Я понимаю, что это более ограничительная регуляризация, и параметры будут сужаться ближе к нулю, но я не всегда уверен в условиях, при которых lambda.1se является лучшим выбором по сравнению с lambda.min. Может кто-нибудь помочь объяснить?

jhersh
источник
5
Формальная ссылка может быть найдена в Hastie et al. «Элементы статистического обучения», стр. 61. Однако они не дают достаточных оснований для этого выбора ...
Ричард Харди
См. Stats.stackexchange.com/questions/80268 .
говорит амеба, восстановите Монику

Ответы:

22

Фридман, Хасти и Тибширани (2010) , ссылаясь на «Элементы статистического обучения» , напишите:

Мы часто используем правило «одной стандартной ошибки» при выборе лучшей модели; это признает тот факт, что кривые риска оцениваются с ошибкой, поэтому ошибки на стороне скупости.

Причина использования одной стандартной ошибки, в отличие от любой другой суммы, по-видимому, в том, что она, ну ... стандартная. Krstajic и др. (2014) пишут (выделено жирным шрифтом):

Брейман и др. [25] обнаружили, что в случае выбора оптимального размера дерева для моделей дерева классификации, размер дерева с минимальной ошибкой перекрестной проверки генерирует модель, которая в общем случае подходит. Поэтому в разделе 3.4.3 их книги Breiman et al. [25] определяют одно стандартное правило ошибки (правило 1 SE) для выбора оптимального размера дерева и реализуют его на протяжении всей книги. Чтобы рассчитать стандартную ошибку для одиночной V-кратной перекрестной проверки, точность должна быть рассчитана для каждого сгиба, а стандартная ошибка рассчитана из V точности для каждого сгиба. Hastie et al. [4] определяют правило 1 SE как выбор наиболее экономной модели, чья ошибка не более чем на одну стандартную ошибку выше ошибки лучшей модели, и предлагают в нескольких местах использовать правило 1 SE для общего использования перекрестной проверки.Суть правила 1 SE, с которым мы согласны, заключается в выборе простейшей модели, точность которой сопоставима с лучшей моделью .

λ

shadowtalker
источник
1
Спасибо! Теперь я могу, наконец, привести кое-что уместное, когда встанет вопрос для тех, кто не знаком со «стандартным» выбором лямбды. Ссылка на Krstajic и др. Тоже выглядит великолепно.
Джерш
Эта цитата говорит только, что «1se был найден оптимальным для классификации ». Но заданный вопрос о регрессе ! Есть альтернативы. Если мы попытаемся, например, вернуться к 2se, мы получим проблему, заключающуюся в том, что лямбда слишком велика и слишком сильно уменьшает коэффициенты. Но мы могли бы, например, перестроить модель, которая исключает все переменные, не выбранные в lambda.1se в исходной модели.
smci
@smci, какая цитата? Это не входит ни в одну из цитат, которые я извлек, и оба предполагают, что правило 1-SE применимо в целом, а не только в классификации.
Shadowtalker
6

Книга Бреймана и др. (Цитируемая в цитате другого ответа от Крстажача) является самой старой ссылкой, которую я нашел для правила 1SE.

Это Брейман, Фридман, Стоун и Деревья классификации и регрессии Ольшена (1984). Они «выводят» это правило в разделе 3.4.3.

Так что если вам нужна официальная цитата, это, кажется, первоисточник.

civilstat
источник