Как соотносятся методы регуляризации риджа, LASSO и эластикета? Каковы их соответствующие преимущества и недостатки? Любая хорошая техническая статья, или примечания лекции были бы оценены также....
Как соотносятся методы регуляризации риджа, LASSO и эластикета? Каковы их соответствующие преимущества и недостатки? Любая хорошая техническая статья, или примечания лекции были бы оценены также....
Я - инженер-программист, изучающий машинное обучение, особенно на курсах Эндрю Нг по машинному обучению . Изучая линейную регрессию с регуляризацией , я нашел смущающие термины: Регрессия с регуляризацией L1 или регуляризацией L2 ЛАССО Хребет регрессии Итак, мои вопросы: Является ли регрессия с...
При выполнении регрессии, например, два гиперпараметра, которые нужно выбрать, часто являются емкостью функции (например, наибольшим показателем многочлена) и величиной регуляризации. Что меня смущает, так это почему бы просто не выбрать функцию с низкой пропускной способностью, а затем...
Примечание: я знаю, что у L1 есть свойство выбора функции. Я пытаюсь понять, какой из них выбрать, когда выбор функции совершенно не имеет значения. Как решить, какую регуляризацию (L1 или L2) использовать? Каковы плюсы и минусы каждой регуляризации L1 / L2? Рекомендовано ли вначале делать выбор...
Я использую функцию auto.arima () в пакете прогноза для подбора моделей ARMAX с различными ковариатами. Тем не менее, у меня часто есть большое количество переменных для выбора, и обычно получается окончательная модель, которая работает с их подмножеством. Мне не нравятся специальные методы для...
Я хотел бы использовать GLM и Elastic Net, чтобы выбрать эти релевантные функции + построить модель линейной регрессии (т. Е. Как прогнозирование, так и понимание, поэтому было бы лучше оставить с относительно небольшим количеством параметров). Выход непрерывный. Это генов на случаев. Я читал об...
Я прочитал три основные причины стандартизации переменных, прежде чем что-то вроде Lassoрегрессии: 1) Интерпретируемость коэффициентов. 2) Возможность ранжировать важность коэффициента по относительной величине оценок коэффициента после усадки. 3) Нет необходимости перехватывать. Но меня интересует...
Проблема лассо имеет решение в закрытой форме: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + если X имеет ортонормированные столбцы. Это было показано в этой теме: Вывод лассо раствора в закрытой форме...
Я закончил курс по машинному обучению Эндрю Нг около года назад, и сейчас я пишу свои исследования по математике в старших классах по методам логистической регрессии и методам оптимизации производительности. Одним из таких методов является, конечно, регуляризация. Целью регуляризации является...
Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...
В ряде ссылок я читал, что оценка Лассо для вектора параметра регрессии эквивалентна апостериорной моде в которой предыдущее распределение для каждого является двойным экспоненциальным распределением (также известным как распределение Лапласа).BBBBBBBiBiB_i Я пытался доказать это, кто-то может...
Когда я знакомлю студентов с концепциями, мне часто бывает весело рассказывать им о происхождении терминологии (например, «регрессия» - это термин с интересным происхождением). Я не смог открыть историю / историю термина «регуляризация» в статистическом / машинном обучении. Итак, каково...
L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Однако в следующей glmnetстатье Friedman, Hastie &...
Однажды я слышал метод использования лассо дважды (например, двойное лассо), когда вы выполняете лассо на исходном наборе переменных, скажем, S1, получаете разреженный набор с именем S2, а затем снова выполняете лассо на множестве S2, чтобы получить множество S3. , Есть ли методологический термин...
Для регрессии Лассо предположим что лучшее решение (например, минимальная ошибка тестирования) выбирает k функций, так что \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ right) .K β л ы ы о = ( β л с ы о 1 ,...
Предположим , что я бегу регрессию . Почему, выбирая главные основных компонентов X , модель сохраняет свою предсказательную силу на Y ?k X YY∼ XY~ИксY \sim XККkИксИксXYYY Я понимаю, что с точки зрения уменьшения размерности / выбора признаков, если v1, v2, . , , vКv1,v2,,,,vКv_1, v_2, ... v_k...
У меня есть несколько вопросов, касающихся штрафа за ребро в контексте наименьших квадратов: βR i Dге= ( λ ID+ X'Икс)- 1Икс'Yβряdгезнак равно(λяD+Икс'Икс)-1Икс'Y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Выражение предполагает, что ковариационная матрица X сжимается в сторону диагональной...
Предположим, у меня есть набор данных для контролируемой статистической задачи классификации, например, через байесовский классификатор. Этот набор данных состоит из 20 функций, и я хочу свести его к 2 функциям с помощью методов уменьшения размерности, таких как анализ основных компонентов (PCA) и...
Поэтому мне был задан вопрос, по каким оценкам центральные меры L1 (т.е. лассо) и L2 (т.е. регрессия гребня). Ответ L1 = медиана и L2 = среднее. Есть ли интуитивные рассуждения об этом? Или это должно быть определено алгебраически? Если да, то как мне это...
Я понимаю, какую роль играет лямбда в регрессии эластичной сети. И я могу понять, почему можно выбрать lambda.min, значение лямбды, которое минимизирует перекрестную проверку. Мой вопрос: где в статистической литературе рекомендуется использовать lambda.1se, то есть значение lambda, которое...