Вопросы с тегом «regularization»

16
Необходимость центрирования и стандартизации данных в регрессии

Рассмотрим линейную регрессию с некоторой регуляризацией: например, найдите который минимизируетxИксx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Обычно столбцы A стандартизированы, чтобы иметь нулевое среднее и единичную норму, тогда как центрируется, чтобы иметь нулевое среднее....

15
Почему усадка действительно работает, что такого особенного в 0?

На этом сайте уже есть пост, посвященный той же проблеме: почему работает усадка? Но, хотя ответы и популярны, я не верю, что суть вопроса действительно решена. Совершенно очевидно, что введение некоторого смещения в оценку приводит к снижению дисперсии и может улучшить качество оценки. Тем не...

15
Регуляризация для моделей ARIMA

Я знаю о регуляризации типа LASSO, гребня и эластичной сетки в моделях линейной регрессии. Вопрос: Можно ли применить этот (или аналогичный) вид штрафных оценок к моделированию ARIMA (с непустой частью MA)? При построении моделей ARIMA кажется обычным рассмотреть предварительно выбранный...

15
Доказательство эквивалентных формул гребневой регрессии

Я прочитал самые популярные книги в области статистического обучения 1- Элементы статистического обучения. 2- Введение в статистическое обучение . Оба упоминают, что у регрессии гребня есть две формулы, которые эквивалентны. Есть ли понятное математическое доказательство этого результата? Я также...

15
Регуляризация и масштабирование функций в онлайн-обучении?

Допустим, у меня есть классификатор логистической регрессии. В обычном пакетном обучении я бы использовал термин регуляризатор, чтобы предотвратить переоснащение и сохранить вес небольшим. Я также нормализую и масштабирую свои функции. В режиме онлайн обучения я получаю непрерывный поток данных. Я...

15
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

14
Какое наименьшее

β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n Мы знаем,...

13
LARS против координатного спуска для лассо

Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи...

13
GLMNET или LARS для вычисления решений LASSO?

Я хотел бы получить коэффициенты для задачи LASSO ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. Проблема в том, что функции glmnet и lars дают разные ответы. Для функции glmnet я спрашиваю коэффициенты вместо просто λ , но я все еще получаю разные...

13
Нормы - Что особенного в?

норма является уникальной (по крайней мере частично) , потому что находится на границе между невыпуклые и выпуклы. норма является «наиболее разреженным» выпуклая норма (правда?).L1L1L_1p=1p=1p=1L1L1L_1 Я понимаю, что евклидова норма имеет корни в геометрии и имеет четкую интерпретацию, когда...

13
Регуляризованная байесовская логистическая регрессия в JAGS

Есть несколько математических работ, описывающих байесовское лассо, но я хочу протестировать правильный код JAGS, который я могу использовать. Может ли кто-нибудь опубликовать пример кода BUGS / JAGS, который реализует регуляризованную логистическую регрессию? Любая схема (L1, L2, Elasticnet) была...

13
Зачем использовать групповое лассо вместо лассо?

Я прочитал, что группа Лассо используется для выбора переменных и разреженности в группе переменных. Я хочу знать интуицию, стоящую за этим утверждением. Почему группа лассо предпочтительнее лассо? Почему путь решения группы Лассо не является кусочно-линейным?...

13
Предотвращение перенастройки LSTM на небольшой набор данных

Я моделирую 15000 твитов для прогнозирования настроений, используя однослойный LSTM со 128 скрытыми единицами, используя word2vec-подобное представление с 80 измерениями. Я получаю точность снижения (38% со случайным = 20%) после 1 эпохи. Большее количество тренировок приводит к тому, что точность...

13
Коэффициенты пути - сравнение регрессии гребня, лассо и эластичной сетки

Я хотел бы сравнить модели, выбранные с ребристой, лассо и эластичной сеткой. На рисунке ниже показаны коэффициенты пути, используя все 3 метода: гребень (рис. A, альфа = 0), лассо (рис. B; альфа = 1) и эластичная сетка (рис. C; альфа = 0,5). Оптимальное решение зависит от выбранного значения...

13
Решение замкнутой формы задачи Лассо, когда матрица данных диагональна

\newcommand{\diag}{\operatorname{diag}} У нас проблема: при условии, что: \ sum_ {я = 1} ^ nx_ix_i ^ T = \ диаг (\ sigma_1 ^ 2, ..., \ sigma_d ^ 2).minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle...

13
Смещение дисперсии

В разделе 3.2 Бишопа «Распознавание образов и машинное обучение» он обсуждает разложение смещения дисперсии, утверждая, что для квадрата функции потерь ожидаемая потеря может быть разложена на квадрат смещения (который описывает, насколько средние прогнозы далеки от истинных модель), дисперсионный...

12
Что нормы и как они относятся к регуляризации?

В последнее время я видел много статей о разреженных представлениях, и большинство из них используют норму и выполняют некоторую минимизацию. Мой вопрос: что норма и смешанная норма? И как они имеют отношение к регуляризации?ℓ p ℓ p , qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q}...