У меня есть проблема с доказательством
E ( Y | X ) ∈ arg min g ( X ) E [ ( Y - g ( X ) ) 2 ]
E(Y|X)∈argming(X)E[(Y−g(X))2]
что, скорее всего, выявит более глубокое непонимание ожиданий и условных ожиданий.
Доказательство, которое я знаю, выглядит следующим образом (другую версию этого доказательства можно найти здесь )
arg min g ( X ) E [ ( Y - g ( x ) ) 2 ] = arg min g ( X ) E [ ( Y - E ( Y | X ) + E ( Y | X ) - g ( X ) ) 2 ] = arg min g ( x ) E [ ( Y-E(Y| X ) ) 2 + 2 ( Y - E ( Y | X ) ) ( E ( Y | X ) - g ( X ) ) + ( E ( Y | X ) - g ( X ) ) 2 ] = arg min g ( x ) E [ 2 ( Y - E ( Y | X ) ) ( E ( Y) | X ) - g ( X ) ) + ( E ( Y | X ) - g ( X ) ) 2 ]
Затем доказательство обычно продолжается аргументом, показывающим, что 2E[(Y−E(Y|X))(E(Y|X)−g(X))]=0
argming(x)E[(Y−g(x))2]=argming(x)E[(E(Y|X)−g(X))2]
который можно увидеть минимизированным, когда g(X)=E(Y|X)
Мои загадки по поводу доказательства следующие:
- Рассмотреть возможность
E[2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]
E[2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2] .
Мне кажется, что независимо от любого аргумента, показывающего, что первый член всегда равен нулю, можно видеть, что установка g(X)=E(Y|X)
E[2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]=E(0+0)
E[2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]=E(0+0) = 0.
Но если это так, то можно повторить доказательство, заменив любой другой функцией , скажем, , и прийти к выводу, что именно минимизирует выражение. Так что должно быть что-то, что я неправильно понимаю (правильно?).E(Y|X)
- У меня есть некоторые сомнения относительно значения в постановке задачи. Как следует понимать обозначения? Значит ли этоE[(Y−g(X))2]
E[(Y−g(X))2]
EX[(Y−g(X))2]
EX[(Y−g(X))2] , или ?EY[(Y−g(X))2]EY[(Y−g(X))2] EXY[(Y−g(X))2]EXY[(Y−g(X))2]
источник
Обратите внимание, что для подтверждения ответа вам нужно только показать, что
E[−2(Y−E(Y|X))(E(Y|X)−g(X))]=0
Что касается ожидания, вы принимаете его условно, в противном случае срок
argming(X)E[(Y−g(X))2]
Не имеет смысла, так как является случайной величиной, если - это а не . Покажите, что вы действительно должны написать или чтобы прояснить это. Теперь, учитывая это уточнение, термин является константой и может быть выведен за пределы ожидания, и вы получите:g(X)g(X) EE EXYEXY EY|XEY|X E[(Y−g(X))2|X]E[(Y−g(X))2|X] EY|X[(Y−g(X))2]EY|X[(Y−g(X))2] (E(Y|X)−g(X))(E(Y|X)−g(X))
−2(E(Y|X)−g(X))E[(Y−E(Y|X))|X]=−2(E(Y|X)−g(X))[E(Y|X)−E[E(Y|X)|X]]=−2(E(Y|X)−g(X))[E(Y|X)−E(Y|X)]=0
Следовательно, вы можете написать целевую функцию как:
EY|X[(Y−g(X))2]=EY|X[(Y−EY|X(Y|X))2]+(EY|X(Y|X)−g(X))2
Минимизатор очевиден отсюда. Обратите внимание, что если вы хотите усреднить по , то очень похожий аргумент можно использовать для показа:XX
EX[(E(Y|X)−g(X))2]=EX[(EY|X(Y|X)−EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]−EX[g(X)])2
Это показывает, что если вы установите для каждого , то у вас также будет минимизатор этой функции. Так что в некотором смысле не имеет значения, является ли или .g(X)=EY|X(Y|X)g(X)=EY|X(Y|X) XX EE EYXEYX EY|XEY|X
источник
Есть математическая точка зрения, которая очень проста. У вас есть проблема проекции в гильбертовом пространстве, очень похожая на проекцию вектора из на подпространство.Rn
Пусть обозначает основное вероятностное пространство. Чтобы задача имела смысл, рассмотрим случайные величины с конечными вторыми моментами, т. Е. Гильбертово пространство . Теперь проблема заключается в следующем: учитывая , найдите проекцию на подпространство , где является -подалгебра , порожденный . (Как и в случае конечного размера, минимизация -пространства к подпространству означает поиск проекции). Желаемая проекция(Ω,F,μ)L2(Ω,F,μ)X,Y∈L2(Ω,F,μ)YL2(Ω,FX,μ)FXσFXL2E(X|Y) , по построению. (Это действительно характеризует , если проверять доказательство существования).E(X|Y)
источник
Что касается вашего последнего вопроса, ожидание может быть либо относительно (безусловная ошибка), либо относительно (условная ошибка при каждом значении ). К счастью, минимизация условной ошибки при каждом значении также минимизирует безусловную ошибку, так что это не принципиальное различие.p(x,y)p(y∣x)X=xX=x
источник