В некоторых кругах слово «усадка» часто встречается. Но что такое усадка, то здесь нет четкого определения. Если у меня есть временной ряд (или какая-либо коллекция наблюдений какого-либо процесса), как я могу измерить эмпирическую усадку ряда? О каких типах теоретической усадки я могу говорить? Как усадка может помочь в прогнозировании? Могут ли люди дать хорошее представление или рекомендации?
estimation
predictive-models
shrinkage
Wintermute
источник
источник
Ответы:
В 1961 году Джеймс и Стейн опубликовали статью под названием «Оценка с квадратичной потерей» https://projecteuclid.org/download/pdf_1/euclid.bsmsp/1200512173 . Хотя термин «усадка» конкретно не используется, они обсуждают минимаксные оценки для статистических данных с высокой размерностью (фактически даже для местоположения с 3 параметрами), которые имеют меньший риск (ожидаемые потери), чем обычная MLE (каждый компонент в среднем по выборке) для нормальных данных. , Брэдли Эфрон называет их находку «самой яркой теоремой послевоенной математической статистики». Эта статья цитировалась 3310 раз.
Copas в 1983 году пишет первую статью «Регрессия, прогнозирование и усадка», чтобы обозначить термин «усадка». Это неявно определяется в аннотации:
И во всех последующих исследованиях представляется, что сокращение относится к рабочим характеристикам (и их оценкам) для достоверности прогноза и оценки вне выборки в контексте нахождения допустимых и / или минимаксных оценок.
источник
Это о регуляризации. Предположим, вы хотите подогнать кривую и использовать функцию квадрата потерь (вы можете выбрать другую). По
fit
Вы хотели бы восстановить параметры, которые управляют процессом, который генерировал эту кривую. Теперь представьте, что вы хотите подогнать эту кривую, используя 100-й полином (например). Скорее всего, вы собираетесь надеть или захватить каждый излом и шум кривой. Кроме того, ваши возможности прогнозирования вне заданного интервала обучающих данных, вероятно, будут очень плохими. Таким образом, термин регуляризации добавляется к целевой функции с некоторым весом, умноженным на коэффициент регуляризации - l_1, l_2 или пользовательский. В случае l_2, который, пожалуй, проще понять, это приведет к тому, что большие значения параметров будут вынуждены уменьшить сокращение. Вы можете думать о регуляризации или сокращении как о том, что ваш алгоритм ведет к решению, которое может быть лучшим решением.источник