Вопросы с тегом «shrinkage»

Включение дополнительных ограничений (обычно штраф за сложность) в процесс подбора модели. Используется для предотвращения переобучения / повышения точности прогнозирования.

65
Единый взгляд на усадку: какова связь (если таковая имеется) между парадоксом Штейна, регрессией гребня и случайными эффектами в смешанных моделях?

Рассмотрим следующие три явления. Парадокс Штейна: учитывая некоторые данные из многомерного нормального распределения в Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 , среднее значение выборки не очень хорошая оценка истинного среднего. Можно получить оценку с меньшей среднеквадратичной ошибкой, если...

61
Какую проблему решают методы усадки?

Курортный сезон дал мне возможность свернуться калачиком рядом с огнем вместе с «Элементами статистического обучения» . Исходя из (часто) точки зрения эконометрики, у меня возникают проблемы с пониманием использования методов усадки, таких как регрессия гребня, лассо и регрессия с наименьшим углом...

59
Почему оценка гребня становится лучше, чем OLS, добавляя константу к диагонали?

Я понимаю, что оценка регрессии гребня является ββ\beta который минимизирует остаточную сумму квадрата и штраф на размер ββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[...

55
Почему усадка работает?

Чтобы решить проблемы выбора модели, ряд методов (LASSO, гребневая регрессия и т. Д.) Будут сжимать коэффициенты переменных-предикторов к нулю. Я ищу интуитивное объяснение того, почему это улучшает способность к прогнозированию. Если истинное влияние переменной на самом деле было очень велико,...

35
Что такое скорректированная формула R-квадрата в lm в R и как ее следует интерпретировать?

Какая точная формула используется в R lm() для Скорректированного R-квадрата? Как я могу интерпретировать это? Скорректированные R-квадрат формулы Кажется, существует несколько формул для расчета скорректированного R-квадрата. Формула...

28
Стандартизация до Лассо действительно необходима?

Я прочитал три основные причины стандартизации переменных, прежде чем что-то вроде Lassoрегрессии: 1) Интерпретируемость коэффициентов. 2) Возможность ранжировать важность коэффициента по относительной величине оценок коэффициента после усадки. 3) Нет необходимости перехватывать. Но меня интересует...

27
Почему glmnet использует «наивную» эластичную сетку из оригинальной бумаги Zou & Hastie?

L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Однако в следующей glmnetстатье Friedman, Hastie &...

26
Преимущества двойного лассо или двойного лассо?

Однажды я слышал метод использования лассо дважды (например, двойное лассо), когда вы выполняете лассо на исходном наборе переменных, скажем, S1, получаете разреженный набор с именем S2, а затем снова выполняете лассо на множестве S2, чтобы получить множество S3. , Есть ли методологический термин...

25
LASSO с терминами взаимодействия - это нормально, если основные эффекты сведены к нулю?

Регрессия LASSO сокращает коэффициенты до нуля, тем самым обеспечивая эффективный выбор модели. Я считаю, что в моих данных есть значимые взаимодействия между номинальными и непрерывными ковариатами. Однако не обязательно, чтобы «основные эффекты» истинной модели были значимыми (отличными от нуля)....

21
Причина не сокращения срока смещения (перехвата) в регрессии

Для линейной модели y=β0+xβ+εYзнак равноβ0+Иксβ+εy=\beta_0+x\beta+\varepsilon сжимающий член всегда равен P(β)п(β)P(\beta) . В чем причина того, что мы не уменьшаем смещение (перехват) члена β0β0\beta_0 ? Должны ли мы сократить срок смещения в моделях нейронных...

20
Каковы правильные значения для точности и отзыва в крайних случаях?

Точность определяется как: p = true positives / (true positives + false positives) Является ли это исправить , что, как true positivesи false positivesподход 0, точность приближается к 1? Тот же вопрос для отзыва: r = true positives / (true positives + false negatives) В настоящее время я выполняю...

19
Почему оценку Джеймса-Стейна называют оценкой «усадки»?

Я читал об оценке Джеймса-Стейна. В этих примечаниях определяется как θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X Я прочитал доказательство, но я не понимаю следующее утверждение: Геометрически оценка Джеймса – Стейна сжимает каждый компонент XXX направлении...

18
Оценка Джеймса-Стейна: Как Эфрон и Моррис вычислили в коэффициенте усадки для своего примера бейсбола?

У меня есть вопрос о расчете коэффициента усадки Джеймса-Стейна в 1977 году в журнале Scientific American Брэдли Эфрона и Карла Морриса «Парадокс Штейна в статистике» . Я собрал данные для бейсболистов, и они приведены ниже: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298...

16
В каких именно условиях регрессия гребня способна обеспечить улучшение по сравнению с обычной регрессией наименьших квадратов?

Хребетная регрессия оценивает параметры в линейной модели by где - параметр регуляризации. Хорошо известно, что он часто работает лучше, чем регрессия OLS (с ), когда существует много коррелированных предикторов.у = Х & beta ; & beta ; А , = ( Х ⊤ Х + А , I ) - 1 х ⊤ у , А , А , =...

16
Почему «расслабленное лассо» отличается от стандартного лассо?

Если мы начнем с набора данных , применим к нему Лассо и получим решение , мы можем снова применить Лассо к набору данных , где - это набор ноль индексов , чтобы получить решение, , называемое «расслабленным решением LASSO» (поправьте меня, если я ошибаюсь!). Решение должно удовлетворять условиям...

15
Усадка Джеймса-Стейна «в дикой природе»?

Я согласен с идеей сжатия Джеймса-Стейна (то есть, что нелинейная функция одного наблюдения вектора возможно независимых нормалей может быть лучшей оценкой средних значений случайных величин, где «лучше» измеряется квадратической ошибкой). ). Однако я никогда не видел его в прикладной работе. Я...

15
Оптимальный выбор штрафа для лассо

Существуют ли аналитические результаты или экспериментальные работы относительно оптимального выбора коэффициента штрафного члена . Под оптимальным я подразумеваю параметр, который максимизирует вероятность выбора наилучшей модели или минимизирует ожидаемые потери. Я спрашиваю, потому что часто...

15
Почему усадка действительно работает, что такого особенного в 0?

На этом сайте уже есть пост, посвященный той же проблеме: почему работает усадка? Но, хотя ответы и популярны, я не верю, что суть вопроса действительно решена. Совершенно очевидно, что введение некоторого смещения в оценку приводит к снижению дисперсии и может улучшить качество оценки. Тем не...

13
Что такое усадка?

В некоторых кругах слово «усадка» часто встречается. Но что такое усадка, то здесь нет четкого определения. Если у меня есть временной ряд (или какая-либо коллекция наблюдений какого-либо процесса), как я могу измерить эмпирическую усадку ряда? О каких типах теоретической усадки я могу говорить?...