Смещение оптимизма - оценки ошибки прогноза

9

В книге «Элементы статистического обучения» (доступно в формате PDF онлайн) обсуждается предвзятость (7.21, стр. 229). В нем говорится, что смещение оптимизма - это разница между ошибкой обучения и ошибкой в ​​выборке (ошибка наблюдается, если мы выбираем новые значения результатов в каждой из исходных точек обучения) (см. Ниже).

введите описание изображения здесь

Далее он заявляет, что это смещение оптимизма ( ) равно ковариации наших оценочных значений y и фактических значений y (формула ниже). Мне трудно понять, почему эта формула указывает на предвзятость оптимизма; наивно я думал бы, что сильная ковариация между фактическим и предсказанным просто описывает точность - не оптимизм. Дайте мне знать, если кто-то может помочь с выводом формулы или поделиться интуицией. ωyy

введите описание изображения здесь

user1885116
источник
Очень полезно, спасибо! Я думаю, что одно из уравнений имеет незначительную опечатку и должно быть:=1Ni=1N(Ey[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])
Спящий

Ответы:

8

Начнем с интуиции.

Там ничего плохого в использовании предсказать Y I . Фактически, если мы не используем его, это означает, что мы выбрасываем ценную информацию. Однако чем больше мы в зависимости от информации , содержащейся в у я прийти с нашим прогнозом, тем более чрезмерно оптимистичными наша оценка будет.YяY^яYя

С одной стороны, если у я просто у я , вы будете иметь совершенное в образце предсказания ( R 2 = 1 ), но мы довольно уверены , что вне образца предсказания собирается быть плохим. В этом случае (это легко проверить самостоятельно), степени свободы будут d е ( у ) = п .Y^яYяр2знак равно1dе(Y^)знак равноN

С другой стороны, если вы используете выборочное среднее : y i = ^ y i = ˉ y для всех i , то ваши степени свободы будут равны 1.YYязнак равноYя^знак равноY¯я

Проверьте этот хороший раздаточный материал Райана Тибширани для более подробной информации об этой интуиции


Теперь аналогичное доказательство другого ответа, но с чуть более подробным объяснением.

Помните, что по определению средний оптимизм таков:

ωзнак равноЕY(ЕрряN-ерр¯)

знак равноЕY(1NΣязнак равно1NЕY0[L(Yя0,е^(Икся)|T)]-1NΣязнак равно1NL(Yя,е^(Икся)))

Теперь используйте функцию квадратичных потерь и расширите квадратные слагаемые:

знак равноЕY(1NΣязнак равно1NЕY0[(Yя0-Y^я)2]-1NΣязнак равно1N(Yя-Y^я)2))

знак равно1NΣязнак равно1N(ЕYЕY0[(Yя0)2]+ЕYЕY0[Y^я2]-2ЕYЕY0[Yя0Y^я]-ЕY[Yя2]-ЕY[Y^я2]+2Е[YяY^я])

используйте для замены:ЕYЕY0[(Yя0)2]знак равноЕY[Yя2]

=1Ni=1N(Ey[yi2]+Ey[yi^2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

=2Ni=1N(E[yiy^i]Ey[yi]Ey[y^i])

Чтобы закончить, обратите внимание, что , что дает:Cov(x,w)=E[xw]E[x]E[w]

=2Ni=1NCov(yi,y^i)
CD98
источник
5
Я должен указать, что его имя пишется «Райан Тибширани» Роб Тибширани
Роберт Тибширани
2
Добро пожаловать на наш сайт, Роб - это большая честь, что ты здесь, хотя бы для исправления ошибки! Если вы видите что-то еще, пожалуйста, дайте нам знать: и, конечно, мы будем рады любым ответам, которые вы (или ваши студенты) могли бы опубликовать. Ваша работа широко упоминается на этом сайте, особенно ESL и Введение в Bootstrap.
whuber
EyEY0[(Yi0)2]=Ey[yi2]2EyEY0[Yi0y^i]=2Ey[EY0[Yi0]EY0[y^i]]=2Ey[yi]Ey[y^i]
7

е^(Икся)знак равноY^я

ωзнак равноЕY[оп]знак равноЕY[ЕрряN-ерр¯]знак равноЕY[ЕрряN]-ЕY[ерр¯]знак равноЕY[1NΣязнак равно1NЕY0[L(Yя0,е^(Икся))]-ЕY[1NΣязнак равно1NL(Yя,е^(Икся))]знак равно1NΣязнак равно1NЕYЕY0[(Yя0-Y^я)2]-ЕY[(Yя-Y^я)2]знак равно1NΣязнак равно1NЕYЕY0[(Yя0)2]+ЕYЕY0[Y^я2]-2ЕYЕY0[Yя0Y^я]-ЕY[Yя2]-ЕY[Y^я2]+2ЕY[YяY^я]знак равно1NΣязнак равно1NЕY[Yя2]+ЕY[Y^я2]-2ЕY[Yя]ЕY[Y^я]-ЕY[Yя2]-ЕY[Y^я2]+2ЕY[YяY^я]знак равно2NΣязнак равно1NЕY[YяY^я]-ЕY[Yя]ЕY[Y^я]знак равно2NΣязнак равно1NЕY[YяY^я-YяЕY[Y^я]-ЕY[Yя]Y^я+ЕY[Yя]ЕY[Y^я]]знак равно2NΣязнак равно1NЕY[(Y^я-ЕY[Y^я])([Yя-ЕY[Yя])]знак равно2NΣязнак равно1Nсоv(Y^я,Yя)
QED
Мацей Лазаревич
источник
1
Последние четыре шага могут быть упрощены этим свойством ковариации: Е[Иксвес]-Е[Икс]Е[вес]знак равноСоv(Икс,вес)
CD98