Вопросы с тегом «regularization»

33
Является ли регрессия с регуляризацией L1 такой же, как Лассо, а с регуляризацией L2 такая же, как регрессия гребня? А как написать «Лассо»?

Я - инженер-программист, изучающий машинное обучение, особенно на курсах Эндрю Нг по машинному обучению . Изучая линейную регрессию с регуляризацией , я нашел смущающие термины: Регрессия с регуляризацией L1 или регуляризацией L2 ЛАССО Хребет регрессии Итак, мои вопросы: Является ли регрессия с...

32
Зачем использовать регуляризацию в полиномиальной регрессии вместо понижения степени?

При выполнении регрессии, например, два гиперпараметра, которые нужно выбрать, часто являются емкостью функции (например, наибольшим показателем многочлена) и величиной регуляризации. Что меня смущает, так это почему бы просто не выбрать функцию с низкой пропускной способностью, а затем...

30
Когда регуляризация L1 будет работать лучше, чем L2, и наоборот?

Примечание: я знаю, что у L1 есть свойство выбора функции. Я пытаюсь понять, какой из них выбрать, когда выбор функции совершенно не имеет значения. Как решить, какую регуляризацию (L1 или L2) использовать? Каковы плюсы и минусы каждой регуляризации L1 / L2? Рекомендовано ли вначале делать выбор...

29
Подгонка модели ARIMAX с регуляризацией или штрафом (например, с помощью лассо, эластичной сетки или регрессии гребня)

Я использую функцию auto.arima () в пакете прогноза для подбора моделей ARMAX с различными ковариатами. Тем не менее, у меня часто есть большое количество переменных для выбора, и обычно получается окончательная модель, которая работает с их подмножеством. Мне не нравятся специальные методы для...

29
Выбор характеристик и модель с glmnet по данным метилирования (p >> N)

Я хотел бы использовать GLM и Elastic Net, чтобы выбрать эти релевантные функции + построить модель линейной регрессии (т. Е. Как прогнозирование, так и понимание, поэтому было бы лучше оставить с относительно небольшим количеством параметров). Выход непрерывный. Это генов на случаев. Я читал об...

28
Стандартизация до Лассо действительно необходима?

Я прочитал три основные причины стандартизации переменных, прежде чем что-то вроде Lassoрегрессии: 1) Интерпретируемость коэффициентов. 2) Возможность ранжировать важность коэффициента по относительной величине оценок коэффициента после усадки. 3) Нет необходимости перехватывать. Но меня интересует...

28
Почему мой вывод лассо-решения замкнутой формы неверен?

Проблема лассо имеет решение в закрытой форме: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + если X имеет ортонормированные столбцы. Это было показано в этой теме: Вывод лассо раствора в закрытой форме...

27
Почему меньшие веса приводят к упрощению моделей в регуляризации?

Я закончил курс по машинному обучению Эндрю Нг около года назад, и сейчас я пишу свои исследования по математике в старших классах по методам логистической регрессии и методам оптимизации производительности. Одним из таких методов является, конечно, регуляризация. Целью регуляризации является...

27
Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

27
Почему штраф Лассо эквивалентен двойному экспоненциальному (Лапласу) ранее?

В ряде ссылок я читал, что оценка Лассо для вектора параметра регрессии эквивалентна апостериорной моде в которой предыдущее распределение для каждого является двойным экспоненциальным распределением (также известным как распределение Лапласа).BBBBBBBiBiB_i Я пытался доказать это, кто-то может...

27
Происхождение термина «регуляризация»

Когда я знакомлю студентов с концепциями, мне часто бывает весело рассказывать им о происхождении терминологии (например, «регрессия» - это термин с интересным происхождением). Я не смог открыть историю / историю термина «регуляризация» в статистическом / машинном обучении. Итак, каково...

27
Почему glmnet использует «наивную» эластичную сетку из оригинальной бумаги Zou & Hastie?

L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Однако в следующей glmnetстатье Friedman, Hastie &...

26
Преимущества двойного лассо или двойного лассо?

Однажды я слышал метод использования лассо дважды (например, двойное лассо), когда вы выполняете лассо на исходном наборе переменных, скажем, S1, получаете разреженный набор с именем S2, а затем снова выполняете лассо на множестве S2, чтобы получить множество S3. , Есть ли методологический термин...

26
Зачем использовать оценки Лассо над оценками OLS для Лассо-идентифицированного подмножества переменных?

Для регрессии Лассо предположим что лучшее решение (например, минимальная ошибка тестирования) выбирает k функций, так что \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ right) .K β л ы ы о = ( β л с ы о 1 ,...

25
Как главные главные компоненты могут сохранять предсказательную силу зависимой переменной (или даже приводить к лучшим прогнозам)?

Предположим , что я бегу регрессию . Почему, выбирая главные основных компонентов X , модель сохраняет свою предсказательную силу на Y ?k X YY∼ XY~ИксY \sim XККkИксИксXYYY Я понимаю, что с точки зрения уменьшения размерности / выбора признаков, если v1, v2, . , , vКv1,v2,,,,vКv_1, v_2, ... v_k...

25
Интерпретация регуляризации гребня в регрессии

У меня есть несколько вопросов, касающихся штрафа за ребро в контексте наименьших квадратов: βR i Dге= ( λ ID+ X'Икс)- 1Икс'Yβряdгезнак равно(λяD+Икс'Икс)-1Икс'Y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Выражение предполагает, что ковариационная матрица X сжимается в сторону диагональной...

25
Есть ли смысл объединять PCA и LDA?

Предположим, у меня есть набор данных для контролируемой статистической задачи классификации, например, через байесовский классификатор. Этот набор данных состоит из 20 функций, и я хочу свести его к 2 функциям с помощью методов уменьшения размерности, таких как анализ основных компонентов (PCA) и...

24
Регрессия L1 оценивает медиану, тогда как регрессия L2 означает?

Поэтому мне был задан вопрос, по каким оценкам центральные меры L1 (т.е. лассо) и L2 (т.е. регрессия гребня). Ответ L1 = медиана и L2 = среднее. Есть ли интуитивные рассуждения об этом? Или это должно быть определено алгебраически? Если да, то как мне это...

24
Почему лямбда «в пределах одной стандартной ошибки от минимума» является рекомендованным значением для лямбда в упругой чистой регрессии?

Я понимаю, какую роль играет лямбда в регрессии эластичной сети. И я могу понять, почему можно выбрать lambda.min, значение лямбды, которое минимизирует перекрестную проверку. Мой вопрос: где в статистической литературе рекомендуется использовать lambda.1se, то есть значение lambda, которое...