Однако в следующей glmnet
статье Friedman, Hastie & Tibshirani (2010) пути регуляризации для обобщенных линейных моделей с помощью координатного спуска не использовали этот масштаб и использовали только краткую сноску
Zou и Hastie (2005) назвали это наказание наивной эластичной сеткой и предпочли измененную версию, которую они назвали эластичной сеткой. Мы опускаем это различие здесь.
Никаких дальнейших объяснений там не приводится (или в любом из учебников Hastie et al.). Я нахожу это несколько загадочным. Оставили ли авторы пересчет, потому что посчитали его слишком специальным ? потому что он работал хуже в некоторых дальнейших экспериментах? потому что не было понятно, как обобщить это на случай GLM? Не имею представления. Но в любом случае glmnet
пакет стал очень популярным с тех пор, и поэтому у меня сложилось впечатление, что в настоящее время никто не использует масштабирование от Zou & Hastie, и большинство людей, вероятно, даже не подозревают об этой возможности.
Вопрос: в конце концов, было ли это изменение масштаба хорошей или плохой идеей?
При glmnet
параметризации масштабирование Zou & Hastie должно быть
источник
glmnet
кода. Он недоступен даже в качестве дополнительной функции (их предыдущий код, который сопровождал статью 2005 года, конечно, поддерживает масштабирование).Ответы:
Я послал по электронной почте этот вопрос Зоу и Хасти и получил следующий ответ от Хасти (надеюсь, он не будет против, если я приведу его здесь):
Я интерпретирую эти слова как одобрение некоторой формы «перемасштабирования» решения с ванильной эластичной сеткой, но, похоже, Хасти больше не придерживается особого подхода, предложенного в Zou & Hastie 2005.
Далее я кратко рассмотрю и сравню несколько вариантов масштабирования.
Я буду использовать
glmnet
параметризацию потерь решение обозначено как .Подход Zou & Hastie заключается в использованииОбратите внимание, что это приводит к некоторому нетривиальному масштабированию для чистого гребня, когда что, вероятно, не имеет большого смысла. С другой стороны, это не приводит к изменению масштаба для чистого лассо, когда , несмотря на различные утверждения в литературе о том, что оценка лассо может выиграть от некоторого изменения масштаба (см. Ниже).
Для чистого лассо Тибширани предложил использовать гибрид лассо-МНК, то есть использовать оценщик МНК, используя подмножество предикторов, выбранных Лассо. Это делает оценку согласованной (но устраняет усадку, которая может увеличить ожидаемую ошибку). Можно использовать тот же подход для эластичной сети но потенциальная проблема заключается в том, что эластичная сеть может выбирать больше чем предикторов и OLS сломаются (напротив, чистый лассо никогда не выберет больше чем предикторов).
Расслабленное лассо, упомянутое в электронном письме Хасти, приведенном выше, является предложением запустить еще одно лассо на подмножестве предикторов, выбранных первым лассо. Идея состоит в том, чтобы использовать два разных наказания и выбрать оба с помощью перекрестной проверки. Можно применить ту же идею к упругой сети, но, похоже, для этого потребуются четыре различных параметра регуляризации, и их настройка - это кошмар.
Я предлагаю более простую схему смягченных эластичных сетей : после получения выполните регрессию гребня с и такой же для выбранного подмножества предикторов:Это (а) не требует каких-либо дополнительных параметров регуляризации, (б) работает для любого числа выбранных предикторов, и (в) ничего не делает, если начинать с чистого гребня. Звучит неплохо.β^ α=0 λ
Сейчас я работаю с малым набора данных с и , где хорошо предсказывается несколько ведущих ПК . Я буду сравнивать производительность вышеупомянутых оценок, используя 100-кратную повторную 11-кратную перекрестную проверку. В качестве показателя производительности я использую тестовую ошибку, нормализованную для получения чего-то вроде R-квадрата:На рисунке ниже пунктирные линии соответствуют оценщику ванильной эластичной сетки а три вспомогательных участка соответствуют трем подходам масштабирования:n≪p n=44 p=3000 y X
Таким образом, по крайней мере в этих данных все три подхода превосходят оценку ванильной эластичной сетки, и «расслабленная эластичная сеть» работает лучше всего.
источник