У меня есть несколько вопросов, касающихся штрафа за ребро в контексте наименьших квадратов:
1) Выражение предполагает, что ковариационная матрица X сжимается в сторону диагональной матрицы, означая, что (при условии, что переменные стандартизируются до процедуры) корреляция между входными переменными будет снижена. Правильно ли это толкование?
2) Если это усадочное приложение, почему оно не сформулировано в строках , предполагая, что мы можем каким-то образом ограничить лямбду до [0,1] диапазона с нормализацией.
3) Что может быть нормализацией для чтобы ее можно было ограничить стандартным диапазоном, таким как [0,1].
4) Добавление константы к диагонали повлияет на все собственные значения. Было бы лучше атаковать только единичные или близкие к единственному значения? Это эквивалентно применению PCA к X и сохранению главных компонентов N до регрессии или у него другое имя (так как он не изменяет расчет кросс-ковариации)?
5) Можем ли мы регуляризировать кросс-ковариацию или она имеет какое-либо применение, то есть
где малое значение уменьшит перекрестную ковариацию. Очевидно, что это одинаково понижает все s, но, возможно, есть более разумный способ, такой как жесткий / мягкий порог, в зависимости от значения ковариации.
источник
Ответы:
Хорошие вопросы!
Да, это точно правильно. Вы можете рассматривать штрафное ребро как один из возможных способов решения проблемы мультиколлинеарности, которая возникает, когда многие предикторы сильно коррелированы. Введение штрафа за гребень эффективно снижает эти корреляции.
Один из возможных способов нормализации - это масштабирование по полной дисперсии , т. Е. Использование вместо . Это не обязательно ограничит значением , но сделает его «безразмерным» и, вероятно, приведет к тому, что оптимальное значение будет меньше во всех практических случаях (примечание: это всего лишь предположение!).λ tr(X⊤X) λtr(X⊤X) λ λ [0,1] λ 1
«Атаковать только малые собственные значения» имеет отдельное имя и называется регрессией главных компонентов. Связь между ПЦР и регрессией гребня заключается в том, что в ПЦР вы фактически получаете «пошаговый штраф», отсекающий все собственные значения после определенного числа, тогда как регрессия гребня применяет «мягкий штраф», штрафующий все собственные значения, при этом меньшие штрафуются больше. Это хорошо объясняется в «Элементах статистического обучения » Hastie et al. (свободно доступно онлайн), раздел 3.4.1. См. Также мой ответ в « Отношения между регрессией гребня и регрессией PCA» .
Я никогда не видел, чтобы это было сделано, но обратите внимание, что вы могли бы рассмотреть функцию стоимости в видеЭто уменьшает вашу не до нуля, а до некоторого другого заранее заданного значения . Если вы решите математику, вы получите оптимальное значение заданное что, возможно, можно рассматривать как «регуляризационную кросс-ковариацию»?
источник
Дополнительный комментарий к вопросу 4. На самом деле, регрессия гребня довольно эффективно справляется с малыми собственными значениями то время как в основном оставляются только большие собственные значения.XTX
Чтобы увидеть это, выразите оценку регрессии гребня через разложение по сингулярному значению ,X
где векторы взаимно ортогональны, а векторы v i также взаимно ортогональны. Здесь собственными значениями X T X являются σ 2 i , i = 1 , 2 , … , n .ui vi XTX σ2i i=1,2,…,n
Тогда вы можете показать, что
Теперь рассмотрим «факторы фильтра» . Если λ = 0 , то коэффициенты фильтрации равны 1, и мы получаем стандартное решение наименьших квадратов. Если λ > 0 и σ 2 i ≫ λ , то коэффициент фильтрации по существу равен 1. Если σ 2 i ≪ λ , то этот коэффициент по существу равен 0. Таким образом, слагаемые, соответствующие малым собственным значениям, эффективно выпадают, а слагаемые, соответствующие большие собственные значения сохраняются.σ2i/(σ2i+λ) λ=0 λ>0 σ2i≫λ σ2i≪λ
Для сравнения, регрессия главных компонентов просто использует коэффициенты 1 (для больших собственных значений) или 0 (для меньших собственных значений, которые отбрасываются) в этой формуле.
источник
Вопросы 1, 2 и 3 связаны между собой. Мне нравится думать , что да, введение штрафа Ридж в модели линейной регрессии можно интерпретировать как усадка О собственных значениях . Чтобы сделать эту интерпретацию, сначала нужно сделать предположение, что X центрирован. Эта интерпретация основана на следующей эквивалентности: λ x + y = κ ( α x + ( 1 - α ) y ) , причем α = λИкс Икс
Техника, которую вы описываете как «атака [использующая] только особые или близкие к единственному значения», также известна как анализ сингулярного спектра (с целью линейной регрессии) (см. Уравнение 19), если под «атакой» вы подразумеваете «удаление ». Кросс-ковариация неизменна.
Удаление низких значений единственного числа также выполняется с помощью регрессии главных компонентов . В ПЦР PCA выполняется для а линейная регрессия применяется для выбора полученных компонентов. Разница с SSA заключается в том, что он влияет на кросс-ковариацию.X
источник