Ожидаемая ошибка прогноза - вывод

20

Я изо всех сил пытаюсь понять вывод ожидаемой ошибки прогнозирования в соответствии с приведенным ниже (ESL), особенно в отношении выводов 2.11 и 2.12 (обусловливание, шаг к точечному минимуму). Любые указатели или ссылки высоко ценится.

Ниже я сообщаю отрывок из ESL pg. 18. Первые два уравнения, по порядку, уравнения 2.11 и 2.12.


Пусть XRp обозначает вещественный случайный входной вектор, а YR - вещественную случайную выходную переменную с совместным распределением Pr(X,Y) . Будем искать функцию f(X) для прогнозирования Y заданных значений входного X . Эта теория требует функции потерь L(Y,f(X)) для штрафования за ошибки в прогнозировании, и, безусловно, наиболее распространенной и удобной является возведение в квадрат ошибок :L(Y,f(X))=(Yf(X))2 . Это приводит нас к критерию выбораf ,

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

ожидаемая (квадратичная) ошибка прогноза. Обуславливая X , мы можем записать EPE как

EPE(f)=EXEY|X([Yf(X)]2|X)

и мы видим, что достаточно минимизировать EPE:

f(x)=argmincEY|X([Yc]2|X)

Решение

f(x)=E(Y|X=x)

условное ожидание, также известное как функция регрессии .

user1885116
источник
Поменяв местами и Y в первом уравнении в статье Википедии о законе полного ожидания, мы получим эквивалентность (2.9) и (2.11). Прочитайте эту статью для доказательства. (2.12) является немедленным, при том понимании, что f следует выбирать для минимизации EPE. XYf
whuber
3
Примечание: это из элементов статистического обучения
Жубарб,
2
Для тех, кто также читает эту книгу, ознакомьтесь с этими подробными заметками Weathermax и Epstein
Dodgie
@Dodgie Эта ссылка умерла ((
Мэтью Друри
2
@MatthewDrury К счастью, поиск в «Статистике Weathermax и Epstein» вернул ссылку в качестве самого первого результата;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/…
Доджи

Ответы:

16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)
user48002
источник
3
Я понимаю, что вы написали, но думаете ли вы, что если ОП был смущен выводом, показанным в вопросе, он / она поймет ваш ответ? конечно, я уже понял вывод, показанный в вопросе.
Марк Л. Стоун
Я получил здесь от Google с тем же вопросом и на самом деле найти этот вывод именно то, что мне нужно.
Точка с запятой и клейкая лента
1
@ MarkL.Stone - это может быть глупый вопрос, но не могли бы вы объяснить, что подразумевается под и как он становится p ( x , y ) d x d y ? Спасибо большоеPr(dx,dy)p(x,y)dxdy
Ксавье Бурре Сикот
1
Под первым подразумевается последнее. Я думаю, что более распространенным является использование dP (x, y) или dF (x, y). В 1D вы часто будете видеть, что dF (x) означает f (x) dx, где f (x) - функция плотности вероятности, но запись также может учитывать дискретную функцию вероятности (в суммировании) или даже смесь непрерывная плотность и масса дискретной вероятности.
Марк Л. Стоун
Wouldn't be more precise to say (last formula) EX(EY|X([Yf(X)]2|X=x)) ?
D1X
11

The equation (2.11) is a consequence of the following little equality. For any two random variables Z1 and Z2, and any function g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

The notation EZ1,Z2 is the expectation over the joint distribution. The notation EZ1Z2 essentially says "integrate over the conditional distribution of Z1 as if Z2 was fixed".

It's easy to verify this in the case that Z1 and Z2 are discrete random variables by just unwinding the definitions involved

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

The continuous case can either be viewed informally as a limit of this argument, or formally verified once all the measure theoretic do-dads are in place.

To unwind the application, take Z1=Y, Z2=X, and g(x,y)=(yf(x))2. Everything lines up exactly.

The assertion (2.12) asks us to consider minimizing

EXEYX(Yf(X))2

where we are free to choose f as we wish. Again, focusing on the discrete case, and dropping halfway into the unwinding above, we see that we are minimizing

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

Everything inside the big parenthesis is non-negative, and you can minimize a sum of non-negative quantities by minimizing the summands individually. In context, this means that we can choose f to minimize

y(yf(x))2Pr(Y=yX=x)

individually for each discrete value of x. This is exactly the content of what ESL is claiming, only with fancier notation.

Matthew Drury
источник
8

I find some parts in this book express in a way that is difficult to understand, especially for those who do not have a strong background in statistics.

I will try to make it simple and hope that you can get rid of confusion.

Claim 1 (Smoothing) E(X)=E(E(X|Y)),X,Y

Proof: Notice that E(Y) is a constant but E(Y|X) is a random variable depending on X.

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

Claim 2: E(Yf(X))2E(YE(Y|X))2,f

Proof:

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

Taking expectation both sides of the above equation give Claim 2 (Q.E.D)

Therefore, the optimal f is f(X)=E(Y|X)

thanhtang
источник