Я изо всех сил пытаюсь понять вывод ожидаемой ошибки прогнозирования в соответствии с приведенным ниже (ESL), особенно в отношении выводов 2.11 и 2.12 (обусловливание, шаг к точечному минимуму). Любые указатели или ссылки высоко ценится.
Ниже я сообщаю отрывок из ESL pg. 18. Первые два уравнения, по порядку, уравнения 2.11 и 2.12.
Пусть обозначает вещественный случайный входной вектор, а - вещественную случайную выходную переменную с совместным распределением . Будем искать функцию для прогнозирования заданных значений входного . Эта теория требует функции потерь для штрафования за ошибки в прогнозировании, и, безусловно, наиболее распространенной и удобной является возведение в квадрат ошибок : . Это приводит нас к критерию выбора ,
ожидаемая (квадратичная) ошибка прогноза. Обуславливая , мы можем записать EPE как
и мы видим, что достаточно минимизировать EPE:
Решение
условное ожидание, также известное как функция регрессии .
источник
Ответы:
источник
The equation (2.11) is a consequence of the following little equality. For any two random variablesZ1 and Z2 , and any function g
The notationEZ1,Z2 is the expectation over the joint distribution. The notation EZ1∣Z2 essentially says "integrate over the conditional distribution of Z1 as if Z2 was fixed".
It's easy to verify this in the case thatZ1 and Z2 are discrete random variables by just unwinding the definitions involved
The continuous case can either be viewed informally as a limit of this argument, or formally verified once all the measure theoretic do-dads are in place.
To unwind the application, takeZ1=Y , Z2=X , and g(x,y)=(y−f(x))2 . Everything lines up exactly.
The assertion (2.12) asks us to consider minimizing
where we are free to choosef as we wish. Again, focusing on the discrete case, and dropping halfway into the unwinding above, we see that we are minimizing
Everything inside the big parenthesis is non-negative, and you can minimize a sum of non-negative quantities by minimizing the summands individually. In context, this means that we can choosef to minimize
individually for each discrete value ofx . This is exactly the content of what ESL is claiming, only with fancier notation.
источник
I find some parts in this book express in a way that is difficult to understand, especially for those who do not have a strong background in statistics.
I will try to make it simple and hope that you can get rid of confusion.
Claim 1 (Smoothing)E(X)=E(E(X|Y)),∀X,Y
Proof: Notice that E(Y) is a constant but E(Y|X) is a random variable depending on X.
Claim 2:E(Y−f(X))2≥E(Y−E(Y|X))2,∀f
Proof:
Taking expectation both sides of the above equation give Claim 2 (Q.E.D)
Therefore, the optimal f isf(X)=E(Y|X)
источник