Вопросы с тегом «regularization»

23
Почему Laplace ранее производил разреженные решения?

Я просматривал литературу по регуляризации, и часто вижу абзацы, которые связывают регуляризацию L2 с априорным гауссианом и L1 с Лапласом с центром в нуле. Я знаю, как выглядят эти априорные значения, но я не понимаю, как это выражается, например, в весах в линейной модели. В L1, если я правильно...

22
Почему Lars и Glmnet предлагают разные решения проблемы Лассо?

Я хочу лучше понять пакеты R Larsи Glmnet, которые используются для решения проблемы Лассо: (для переменных и выборок, см. www.stanford.edu/~hastie/Papers/glmnet.pdf на стр. 3)м я н( β0β) ∈ Rр + 1[ 12 NΣя = 1N( уя- β0- хTяβ)2+ λ | |β| |L1]мяN(β0β)∈рп+1[12NΣязнак...

22
Мостовой штраф против упругой регуляризации

Некоторые штрафные функции и аппроксимации хорошо изучены, такие как LASSO ( L1L1L_1 ) и Ридж ( L2L2L_2 ) и их сравнение в регрессии. ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Вэньцзян [ 1 ] сравнил штраф Бриджа, когда с LASSO, но я не смог найти сравнение с...

22
Что такое «регрессия пониженного ранга»?

Я читал «Элементы статистического обучения» и не мог понять, что такое раздел 3.7 «Сжатие и выбор нескольких результатов». В нем говорится о RRR (регрессии пониженного ранга), и я могу только понять, что предпосылка заключается в обобщенной многомерной линейной модели, в которой коэффициенты...

21
покрытие доверительных интервалов регуляризованными оценками

Предположим, я пытаюсь оценить большое количество параметров по многомерным данным, используя некие регуляризованные оценки. Регуляризатор вносит некоторую погрешность в оценки, но это все же может быть хорошим компромиссом, потому что уменьшение дисперсии должно более чем компенсировать это....

21
Предел оценки гребневой регрессии «единичная дисперсия» при

Рассмотрим регрессию гребня с дополнительным ограничением, требующим, чтобы имел единичную сумму квадратов (эквивалентно, единичную дисперсию); при необходимости можно предположить, что имеет единичную сумму квадратов:y^y^\hat{\mathbf y}yy\mathbf y...

20
Доказательство коэффициентов сжатия с помощью регрессии гребня посредством «спектрального разложения»

Я понял, как регрессия гребня сжимает коэффициенты геометрически к нулю. Более того, я знаю, как доказать это в специальном «ортонормированном случае», но я не совсем понимаю, как это работает в общем случае с помощью «спектральной...

20
Нужно ли нам еще выбирать функции при использовании алгоритмов регуляризации?

У меня есть один вопрос, касающийся необходимости использовать методы выбора признаков (значение важности признаков в случайных лесах или методы выбора однофакторных объектов и т. Д.) Перед запуском алгоритма статистического обучения. Мы знаем, что во избежание переобучения мы можем ввести штраф за...

20
Предупреждение libsvm «достижение максимального числа итераций» и перекрестная проверка

Я использую libsvm в режиме C-SVC с полиномиальным ядром степени 2, и мне необходимо обучить несколько SVM. Каждый тренировочный набор имеет 10 функций и 5000 векторов. Во время обучения я получаю это предупреждение для большинства SVM, которые я тренирую: WARNING: reaching max number of iterations...

19
Избегайте перенастройки в регрессии: альтернативы регуляризации

Регуляризация в регрессии (линейная, логистическая ...) является наиболее популярным способом уменьшения избыточного соответствия. Когда целью является точность прогноза (не объяснение), есть ли хорошие альтернативы регуляризации, особенно подходящие для больших наборов данных (ми / миллиарды...

19
Связь между регрессией гребня и регрессией PCA

Я помню, что где-то в Интернете читал связь между регрессией гребня (с регуляризацией ) и регрессией PCA: при использовании регрессии с с гиперпараметром , если , то регрессия эквивалентна удалению ПК переменная с наименьшим собственным значением.ℓ2ℓ2\ell_2 А , А , → 0ℓ2ℓ2\ell_2λλ\lambdaλ...

19
Может ли регуляризация быть полезной, если мы заинтересованы только в моделировании, а не в прогнозировании?

Может ли регуляризация быть полезной, если мы заинтересованы только в оценке (и интерпретации) параметров модели, а не в прогнозировании или прогнозировании? Я вижу, как регуляризация / перекрестная проверка чрезвычайно полезна, если ваша цель состоит в том, чтобы делать хорошие прогнозы на основе...

17
Частота и приоры

Робби Маккиллиам говорит в комментарии к этому сообщению: Следует отметить, что, с точки зрения частых, нет никаких причин, по которым вы не можете включить в модель предыдущие знания. В этом смысле представление «частых» проще: у вас есть только модель и некоторые данные. Нет необходимости...

17
Существует ли байесовская интерпретация линейной регрессии с одновременной регуляризацией L1 и L2 (она же упругая сеть)?

Хорошо известно, что линейная регрессия с штрафом эквивалентна нахождению оценки MAP с учетом гауссовского априорного коэффициента. Точно так же использование штрафа l 1 эквивалентно использованию распределения Лапласа в качестве предыдущего.l2l2l^2l1l1l^1 Нередко используют некоторую взвешенную...

17
Почему Lasso или ElasticNet работают лучше, чем Ridge, когда функции взаимосвязаны

У меня есть набор из 150 функций, и многие из них тесно связаны друг с другом. Моя цель - предсказать значение дискретной переменной, диапазон которой составляет 1-8 . Мой размер выборки 550 , и я использую 10-кратную перекрестную проверку. AFAIK, среди методов регуляризации (Lasso, ElasticNet и...

17
Что означает «степень свободы» в нейронных сетях?

В книге Бишопа «Классификация образов и машинное обучение» описывается метод регуляризации в контексте нейронных сетей. Тем не менее, я не понимаю параграф, описывающий, что в процессе обучения количество степеней свободы увеличивается вместе со сложностью модели. Соответствующая цитата следующая:...

16
Необходимость центрирования и стандартизации данных в регрессии

Рассмотрим линейную регрессию с некоторой регуляризацией: например, найдите который минимизируетxИксx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Обычно столбцы A стандартизированы, чтобы иметь нулевое среднее и единичную норму, тогда как центрируется, чтобы иметь нулевое среднее....

16
Почему «расслабленное лассо» отличается от стандартного лассо?

Если мы начнем с набора данных , применим к нему Лассо и получим решение , мы можем снова применить Лассо к набору данных , где - это набор ноль индексов , чтобы получить решение, , называемое «расслабленным решением LASSO» (поправьте меня, если я ошибаюсь!). Решение должно удовлетворять условиям...

16
Каков типичный диапазон возможных значений параметра усадки в штрафной регрессии?

В регрессии лассо или гребня необходимо указать параметр сжатия, часто называемый или . Это значение часто выбирается путем перекрестной проверки путем проверки множества различных значений на обучающих данных и определения того, какое из них дает наилучший результат, например, на тестовых данных....