Понимание происхождения компромисса смещения дисперсии

20

Я читаю главу о компромиссах смещения дисперсии элементов статистического обучения, и у меня есть сомнения в формуле на стр. 29. Пусть данные возникают из такой модели, что где - случайный число с ожидаемым значением и дисперсией . Пусть ожидаемое значение ошибки модели составляет где - это предсказание нашего ученика. Согласно книге, ошибка E [(Y-f_k (x)) ^ 2] = \ sigma ^ 2 + Bias (f_k) ^ 2 + Var (f_k (x)).

Y=f(x)+ϵ
epsi ; = Е [ & epsi ; ] = 0 Е [ ( & epsi ; - & epsi ; ) 2 ] = E [ & epsi ; 2 ] = сг 2 Е [ ( Y - F к ( х ) ) 2 ] f k ( x ) x E [ ( Y -ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

Мой вопрос, почему термин смещения не равен 0? Развивая формулу ошибки, я вижу

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

поскольку является независимым случайным числом 2E [(f (x) -f_k (x)) \ epsilon] = 2E [(f (x) -f_k (x))] E [\ epsilon] = 02 Е [ ( е ( х ) - е к ( х ) ) ε ] = 2 Е [ ( е ( х ) - е к ( х ) ) ] E [ ε ] = 0ϵ2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

Где я не прав?

Emanuele
источник

Ответы:

20

Вы не ошиблись, но вы сделали ошибку за один шаг, так как E[(f(x)fk(x))2]Var(fk(x)) . E[(f(x)fk(x))2] is MSE(fk(x))=Var(fk(x))+Bias2(fk(x)) ,

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

Примечание:E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.

Greenparker
источник
В случае бинарных результатов, есть ли эквивалентное доказательство с перекрестной энтропией как мера ошибки?
Эммануил
1
Это не очень хорошо работает с двоичным ответом. См. Ex 7.2 во втором издании «Элементы статистического обучения».
Мэтью Друри,
3
Не могли бы вы объяснить, как вы идете от к ? V a r ( f kE[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
Антуан
16

Еще несколько шагов разложения Bias - Variance

В самом деле, полный вывод редко приводится в учебниках, так как в нем задействовано много скучной алгебры. Вот более полный вывод с использованием обозначения из книги «Элементы статистического обучения» на странице 223


Если мы предположим, что и и то мы можем вывести выражение для ожидаемой ошибки прогнозирования соответствия регрессии на входе с использованием квадрата потерьY=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2ф ( X ) X = х 0f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

Для простоты обозначений пусть , и напомним, что иf^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

Для термина мы можем использовать трюк, аналогичный описанному выше, добавляя и вычитая чтобы получитьE[(ff^)2]E[f^]

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

Положить его вместе

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


Некоторые комментарии о том, почемуE[f^Y]=fE[f^]

Взято от Алекоса Пападопулоса здесь

Напомним, что - это предсказатель, который мы построили на основе точек данных чтобы мы могли написать чтобы запомнить это.f^m{(x(1),y(1)),...,(x(m),y(m))}f^=f^m

С другой стороны, - это прогноз, который мы делаем для новой точки данных , используя модель, построенную на точках данных выше. Таким образом, средняя квадратическая ошибка может быть записана какY(x(m+1),y(m+1))m

E[f^m(x(m+1))y(m+1)]2

Расширяя уравнение из предыдущего раздела

E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]

Последняя часть уравнения может рассматриваться как

E[f^m(x(m+1))ϵ(m+1)]=0

Поскольку мы делаем следующие предположения о точке :x(m+1)

  • Он не использовался при созданииf^m
  • Он не зависит от всех других наблюдений{(x(1),y(1)),...,(x(m),y(m))}
  • Он не зависит отϵ(m+1)

Другие источники с полными деривациями

Ксавье Бурре Сикотт
источник
1
Почему ? Я не думаю и независимы, так , по существу , строится с помощью . E[f^Y]=fE[f^]Yf^f^Y
Фелипе Перес
5
Но вопрос по сути тот же, почему ? Случайность происходит от ошибки поэтому я не понимаю, почему и будут независимыми, а значит, . E[f^ϵ]=0f^ϵf^ϵE(f^ϵ)=0
Фелипе Перес
Из вашей оценки кажется, что выборка по сравнению с выборкой имеет решающее значение. Это так? Если мы будем работать только в выборке, а затем, увидим, как остаточный компромисс дисперсии смещения исчезнет? ϵ
Марковиц
1
@ FelipePérez Насколько я понимаю, случайность происходит от разделения теста на поезд (точки которого оказались в обучающем наборе и дали в качестве обученного предиктора). Другими словами, дисперсия происходит от всех возможных подмножеств данного фиксированного набора данных, которые мы можем принять в качестве обучающего набора. Поскольку набор данных является фиксированным, случайности, получаемой от и поэтому и независимы. f^f^f^ϵf^ϵ
Альберто Сантини