На этом сайте уже есть пост, посвященный той же проблеме: почему работает усадка?
Но, хотя ответы и популярны, я не верю, что суть вопроса действительно решена. Совершенно очевидно, что введение некоторого смещения в оценку приводит к снижению дисперсии и может улучшить качество оценки. Тем не мение:
1) Почему ущерб, нанесенный смещением, меньше по сравнению с дисперсионным усилением?
2) Почему это всегда работает? Например, в случае регрессии Риджа: теорема существования
3) Что такого интересного в 0 (происхождение)? Ясно, что мы можем сжать все, что захотим (например, оценщик Штейна ), но будет ли он работать так же хорошо, как и источник?
4) Почему различные универсальные схемы кодирования предпочитают меньшее количество бит вокруг источника? Эти гипотезы просто более вероятны?
Ожидаются ответы со ссылками на доказанные теоремы или установленные результаты.
источник
Ответы:
Он не должен, это просто , как правило , есть. Стоит ли компромисс, зависит от функции потерь. Но вещи, которые нас интересуют в реальной жизни, часто похожи на квадрат ошибки (например, нас больше заботит одна большая ошибка, чем две ошибки, вдвое меньшие).
В качестве контрпримера - представьте, что при поступлении в колледж мы немного снижаем баллы SAT по отношению к среднему SAT для их демографических показателей (как они определены). Если все сделано правильно, это уменьшит дисперсию и среднеквадратичную ошибку оценок (своего рода) способностей человека при введении смещения. Большинство людей ИМХО утверждают, что такой компромисс недопустим.
Я думаю, что это потому, что мы обычно сжимаем коэффициенты или оценки эффекта. Есть основания полагать, что большинство эффектов невелики (см., Например , дубль Эндрю Гельмана ). Один из способов сказать, что мир, в котором все оказывает сильное влияние на все, - это жестокий непредсказуемый мир. Поскольку наш мир достаточно предсказуем, чтобы позволить нам жить долго и строить полустабильные цивилизации, из этого следует, что большинство последствий невелики.
Поскольку большинство эффектов невелики, полезно неправомерно уменьшить несколько действительно больших, а также корректно уменьшить количество незначительных эффектов.
Я считаю, что это просто свойство нашего мира, и вы, вероятно, могли бы построить самосогласованные миры, в которых сжатие нецелесообразно (скорее всего, сделав среднеквадратическую ошибку непрактичной функцией потерь). Это просто не тот мир, в котором мы живем.
С другой стороны, когда мы рассматриваем усадку в качестве предварительного распределения в байесовском анализе, существуют случаи, когда усадка до 0 активно вредна на практике.
Одним из примеров является шкала длины в гауссовых процессах (где 0 проблематично). В руководстве Стэна рекомендуется использовать априор, который устанавливает незначительный вес, близкий к нулю, т.е. эффективно «сжимая» небольшие значения от нуля. Точно так же рекомендуемые априоры для дисперсии в отрицательном биномиальном распределении эффективно уменьшаются от нуля. Наконец, что не менее важно, всякий раз, когда нормальное распределение параметризовано с точностью (как в INLA), полезно использовать обратное гамма-преобразование или другие предыдущие распределения, которые уменьшаются от нуля.
Теперь это выход из моей глубины, но Википедия говорит, что в универсальной схеме кодирования мы ожидаем ( по определению ) для всех положительных так что это свойство, по-видимому, является простым следствием определения и не связано с усадкой (или я что-то упустил?)п( i ) ≥ P( я + 1 ) я
источник
Хребет, лассо и эластичная сеть похожи на байесовские методы с априорными центрами на нуле - см., Например, « Статистическое обучение с редкостью » Хасти, Тибширани и Уэйнрайта, раздел
2.9 Lq Penalties and Bayes Estimates
: «Существует также байесовский взгляд на эти оценки. ... Это означает, что оценка Лассо является оценкой байесовского MAP (максимальная апостериорность) с использованием предварительного лапласиана ».Один из способов ответить на ваш вопрос (
what's so special about zero?
) состоит в том, что оцениваемые нами эффекты в среднем равны нулю и имеют тенденцию быть небольшими (т.е. наши априоры должны быть сосредоточены вокруг нуля). Сжатие оценок в сторону нуля является тогда оптимальным в байесовском смысле, и через эту линзу можно подумать о лассо, ребристых и эластичных сетях.источник