Вопросы с тегом «regularization»

Включение дополнительных ограничений (обычно штраф за сложность) в процесс подбора модели. Используется для предотвращения переобучения / повышения точности прогнозирования.

76
Почему Лассо обеспечивает Выбор Переменных?

Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет. Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров ββ\beta . Для Лассо ограничение ||β||1≤t||β||1≤t||\beta||_1...

74
Что такое регуляризация в простом английском?

В отличие от других статей, я нашел запись в Википедии по этой теме нечитаемой для не математического человека (такого как я). Я понял основную идею, что вы предпочитаете модели с меньшим количеством правил. Чего я не понимаю, так это как вы переходите от набора правил к «показателю регуляризации»,...

56
Регуляризация L2 эквивалентна гауссовскому приору

Я продолжаю читать это и интуитивно вижу это, но как перейти от регуляризации L2 к тому, что аналитически это - Приор Гаусса? То же самое можно сказать и о том, что L1 эквивалентен предшествующему лапласу. Любые дальнейшие ссылки будут великолепны....

55
Почему усадка работает?

Чтобы решить проблемы выбора модели, ряд методов (LASSO, гребневая регрессия и т. Д.) Будут сжимать коэффициенты переменных-предикторов к нулю. Я ищу интуитивное объяснение того, почему это улучшает способность к прогнозированию. Если истинное влияние переменной на самом деле было очень велико,...

51
Почему термин регуляризации * добавляется * к функции стоимости (вместо умножения и т. Д.)?

Всякий раз, когда используется регуляризация, она часто добавляется к функции стоимости, например, в следующей функции стоимости. Это имеет для меня интуитивный смысл, поскольку минимизирует Функция стоимости означает минимизацию ошибки (левый член) и минимизацию величин коэффициентов (правый...

44
Почему мультиколлинеарность не проверяется в современной статистике / машинном обучении

В традиционной статистике при построении модели мы проверяем мультиколлинеарность, используя такие методы, как оценки коэффициента инфляции дисперсии (VIF), но в машинном обучении вместо этого мы используем регуляризацию для выбора признаков и, похоже, не проверяем, коррелированы ли функции вообще....

42
Нейронные сети: импульс изменения веса и снижение веса

Momentum используется для уменьшения колебаний веса в последовательных итерациях:αα\alpha Е(ш)шηΔ ωя( t + 1 ) = - η∂Е∂веся+ α Δ ωя( т ) ,Δωя(T+1)знак равно-η∂Е∂веся+αΔωя(T),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), где - функция ошибки, - вектор весов,...

42
Методы регуляризации для логистической регрессии

Регуляризация с использованием таких методов, как Ridge, Lasso, ElasticNet, довольно распространена для линейной регрессии. Я хотел знать следующее: применимы ли эти методы для логистической регрессии? Если да, есть ли различия в том, как их нужно использовать для логистической регрессии? Если эти...

41
Как вывести решение о регрессии гребня?

У меня возникли некоторые проблемы с выводом решения для регрессии гребня. Я знаю регрессионное решение без условия регуляризации: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Но после добавления термина L2 к функции стоимости, получается решениеλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2...

39
Эмпирическое обоснование одного стандартного правила ошибки при использовании перекрестной проверки

Существуют ли какие-либо эмпирические исследования, оправдывающие использование единого стандартного правила ошибки в пользу скупости? Очевидно, что это зависит от процесса генерации данных, но все, что анализирует большой массив наборов данных, было бы очень интересно прочитать. «Одно стандартное...

37
Почему регуляризация не устраняет голод данных в Deep Neural Nets?

Проблема, с которой я часто сталкивался в контексте нейронных сетей в целом и глубоких нейронных сетей в частности, заключается в том, что они «жаждут данных» - то есть они плохо работают, если у нас нет большого набора данных с помощью которого тренируется сеть. Насколько я понимаю, это связано с...

37
Если интерес представляет только прогноз, зачем использовать лассо над хребтом?

На странице 223 «Введение в статистическое обучение» авторы суммируют различия между регрессией гребня и лассо. Они предоставляют пример (рис. 6.9) того, когда «лассо имеет тенденцию превосходить регрессию гребня с точки зрения смещения, дисперсии и MSE». Я понимаю, почему лассо может быть...

36
Как интерпретировать glmnet?

Я пытаюсь согласовать многомерную модель линейной регрессии с приблизительно 60 предикторами и 30 наблюдениями, поэтому я использую пакет glmnet для регуляризованной регрессии, потому что p> n. Я просматривал документацию и другие вопросы, но все еще не могу интерпретировать результаты, вот...

35
Что такое упругая сеточная регуляризация и как она решает недостатки Риджа (

Всегда ли упругая чистая регуляризация всегда предпочтительнее, чем Lasso & Ridge, поскольку она, похоже, решает недостатки этих методов? Что такое интуиция и какая математика стоит за эластичной...

33
(Почему) у переоснащенных моделей, как правило, большие коэффициенты?

Я полагаю, что чем больше коэффициент для переменной, тем больше у модели способности «качаться» в этом измерении, обеспечивая повышенную возможность подгонки к шуму. Хотя я думаю, что у меня есть разумное представление о связи между дисперсией в модели и большими коэффициентами, у меня нет такого...

33
Теория за частичной регрессией наименьших квадратов

Кто-нибудь может порекомендовать хорошее изложение теории за частичной регрессией наименьших квадратов (доступно онлайн) для тех, кто понимает SVD и PCA? Я просмотрел многие источники в Интернете и не нашел ничего, что имело бы правильное сочетание строгости и доступности. zi=Xφizi=Xφiz_i=X...