Я полагаю, что чем больше коэффициент для переменной, тем больше у модели способности «качаться» в этом измерении, обеспечивая повышенную возможность подгонки к шуму. Хотя я думаю, что у меня есть разумное представление о связи между дисперсией в модели и большими коэффициентами, у меня нет такого хорошего представления о том, почему они встречаются в моделях с обмундированием. Неправильно ли говорить, что они являются признаком переоснащения, а коэффициент усадки является скорее техникой уменьшения дисперсии в модели? Регуляризация посредством сжатия коэффициентов, кажется, работает по принципу, согласно которому большие коэффициенты являются результатом переобученной модели, но, возможно, я неверно истолковываю мотивацию, лежащую в основе этой техники.
Мое понимание того, что большие коэффициенты, как правило, являются признаком переоснащения, исходит из следующего примера:
Допустим, мы хотели подогнать точек, которые все находятся на оси X. Мы можем легко построить многочлен, решения которого являются этими точками: f ( x ) = ( x - x 1 ) ( x - x 2 ) . , , , ( x - x n - 1 ) ( x - x n ) . Скажем, наши точки в х = 1 , 2 , 3 , 4, Этот метод дает все коэффициенты> = 10 (кроме одного коэффициента). Когда мы добавим больше точек (и тем самым увеличим степень многочлена), величина этих коэффициентов будет быстро увеличиваться.
Этот пример показывает, как я в настоящее время связываю размер коэффициентов модели со «сложностью» сгенерированных моделей, но я обеспокоен тем, что этот случай бесполезен, чтобы действительно указывать на поведение в реальном мире. Я намеренно построил переопределенную модель (полиномиальная МНК 10-й степени, подходящая к данным, сгенерированным из модели квадратичной выборки), и был удивлен, увидев в моей модели в основном небольшие коэффициенты:
set.seed(123)
xv = seq(-5,15,length.out=1e4)
x=sample(xv,20)
gen=function(v){v^2 + 7*rnorm(length(v))}
y=gen(x)
df = data.frame(x,y)
model = lm(y~poly(x,10,raw=T), data=df)
summary(abs(model$coefficients))
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.000001 0.003666 0.172400 1.469000 1.776000 5.957000
data.frame(sort(abs(model$coefficients)))
# model.coefficients
# poly(x, 10, raw = T)10 7.118668e-07
# poly(x, 10, raw = T)9 3.816941e-05
# poly(x, 10, raw = T)8 7.675023e-04
# poly(x, 10, raw = T)7 6.565424e-03
# poly(x, 10, raw = T)6 1.070573e-02
# poly(x, 10, raw = T)5 1.723969e-01
# poly(x, 10, raw = T)3 6.341401e-01
# poly(x, 10, raw = T)4 8.007111e-01
# poly(x, 10, raw = T)1 2.751109e+00
# poly(x, 10, raw = T)2 5.830923e+00
# (Intercept) 5.956870e+00
Может быть, вывод из этого примера состоит в том, что две трети коэффициентов меньше 1, и по отношению к другим коэффициентам есть три коэффициента, которые являются необычно большими (и переменные, связанные с этими коэффициентами, также оказываются наиболее близкими связано с истинной моделью выборки).
Является ли (L2) регуляризация всего лишь механизмом уменьшения дисперсии в модели и, таким образом, «сглаживания» кривой для лучшего соответствия будущим данным, или же она использует эвристику, полученную из наблюдения, что перегруженные модели имеют тенденцию демонстрировать большие коэффициенты? Является ли точное утверждение, что переоснащенные модели имеют тенденцию демонстрировать большие коэффициенты? Если да, может кто-нибудь немного объяснить механизм, лежащий в основе этого явления, и / или направить меня к какой-нибудь литературе?
источник
Ответы:
В контексте регуляризации «большой» коэффициент означает, что величина оценки больше, чем она была бы, если бы использовалась фиксированная спецификация модели . Это результат получения не только оценок, но и спецификации модели из данных.
Подумайте, что будет делать процедура типа ступенчатой регрессии для данной переменной. Если оценка его коэффициента мала по сравнению со стандартной ошибкой, она будет исключена из модели. Это может быть связано с тем, что истинное значение действительно мало, или просто из-за случайной ошибки (или их комбинации). Если он упал, то мы больше не обращаем на это внимания. С другой стороны, если оценка велика относительно ее стандартной ошибки, она будет сохранена. Обратите внимание на дисбаланс: наша окончательная модель будет отклонять переменную, когда оценка коэффициента мала, но мы будем сохранять ее, когда оценка велика. Таким образом, мы, вероятно, переоценим его стоимость.
Иными словами, переоснащение означает, что вы преувеличиваете влияние данного набора предикторов на ответ. Но единственный способ переоценить влияние - это если оценочные коэффициенты слишком велики (и, наоборот, оценки для исключенных вами предикторов слишком малы).
step
Вот пример того, о чем я говорю.
источник
step
), чем во втором эксперименте («вслепую» подгоночные значения). Разве это не противоречит тому, что вы предлагаете, должно произойти?poly
(я думаю, нет)?Один очень простой ответ, не глядя на ваши детали: когда вы переоснащаете, оценщики параметров имеют тенденцию получать большие отклонения, а с большими отклонениями большие значения - это то, что вы должны ожидать!
источник
Дэвид. Я думаю, что проблема с вашим примером в том, что вы не нормализовали свои данные (то есть X ^ 10 >> X.
Так что Дэвид прав, что он сжимает большие коэффициенты больше (так что вы можете получить множество маленьких коэффициентов, в то время как регуляризация L1 может дать вам один большой, а остальные ноль)
так что в основном это инкапсуляция того, что небольшие изменения должны иметь небольшие эффекты (и, конечно, мы возвращаемся к вопросу о том, насколько малы изменения - нормализации ваших данных и т. д.). Но главное в более высоких измерениях, где корреляция вступает в игру: представьте, что у вас есть две переменные x, y, которые сильно коррелированы (обе нормированы на дисперсию 1), тогда их различие будет маленьким = "шум" - поэтому наказание за большие веса будет не позволяйте вам приспособиться к этому шуму (и получите очень большие почти отменяющие коэффициенты для y и x).
Пример остается верным для любого линейного отношения (y = mx)
искать регрессию хребта
источник
Это изображение из моей заметки о курсе Эндрю Нг, пожалуйста, дайте мне знать, если у вас есть вопрос
источник