Я понимаю, какую роль играет лямбда в регрессии эластичной сети. И я могу понять, почему можно выбрать lambda.min, значение лямбды, которое минимизирует перекрестную проверку.
Мой вопрос: где в статистической литературе рекомендуется использовать lambda.1se, то есть значение lambda, которое минимизирует ошибку CV плюс одну стандартную ошибку ? Кажется, я не могу найти формальную цитату или даже причину, по которой это часто является хорошей ценностью. Я понимаю, что это более ограничительная регуляризация, и параметры будут сужаться ближе к нулю, но я не всегда уверен в условиях, при которых lambda.1se является лучшим выбором по сравнению с lambda.min. Может кто-нибудь помочь объяснить?
Ответы:
Фридман, Хасти и Тибширани (2010) , ссылаясь на «Элементы статистического обучения» , напишите:
Причина использования одной стандартной ошибки, в отличие от любой другой суммы, по-видимому, в том, что она, ну ... стандартная. Krstajic и др. (2014) пишут (выделено жирным шрифтом):
источник
Книга Бреймана и др. (Цитируемая в цитате другого ответа от Крстажача) является самой старой ссылкой, которую я нашел для правила 1SE.
Это Брейман, Фридман, Стоун и Деревья классификации и регрессии Ольшена (1984). Они «выводят» это правило в разделе 3.4.3.
Так что если вам нужна официальная цитата, это, кажется, первоисточник.
источник