Задача с доказательством условного ожидания как лучшего предиктора

19

У меня есть проблема с доказательством

E ( Y | X ) arg min g ( X ) E [ ( Y - g ( X ) ) 2 ]E(Y|X)argming(X)E[(Yg(X))2]

что, скорее всего, выявит более глубокое непонимание ожиданий и условных ожиданий.

Доказательство, которое я знаю, выглядит следующим образом (другую версию этого доказательства можно найти здесь )

arg min g ( X ) E [ ( Y - g ( x ) ) 2 ] = arg min g ( X ) E [ ( Y - E ( Y | X ) + E ( Y | X ) - g ( X ) ) 2 ] = arg min g ( x ) E [ ( Y-E(Y| X ) ) 2 + 2 ( Y - E ( Y | X ) ) ( E ( Y | X ) - g ( X ) ) + ( E ( Y | X ) - g ( X ) ) 2 ] = arg min g ( x ) E [ 2 ( Y - E ( Y | X ) ) ( E ( Y) | X ) - g ( X ) ) + ( E ( Y | X ) - g ( X ) ) 2 ]

===argming(X)E[(Yg(x))2]argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

Затем доказательство обычно продолжается аргументом, показывающим, что 2E[(YE(Y|X))(E(Y|X)g(X))]=02E[(YE(Y|X))(E(Y|X)g(X))]=0 и, следовательно,

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

который можно увидеть минимизированным, когда g(X)=E(Y|X)g(X)=E(Y|X) .

Мои загадки по поводу доказательства следующие:

  1. Рассмотреть возможность

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2] .

Мне кажется, что независимо от любого аргумента, показывающего, что первый член всегда равен нулю, можно видеть, что установка g(X)=E(Y|X)g(X)=E(Y|X) минимизирует выражение, поскольку оно подразумевает (E(Y|X)g(X))=0(E(Y|X)g(X))=0 и, следовательно,

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0) = 0.

Но если это так, то можно повторить доказательство, заменив любой другой функцией , скажем, , и прийти к выводу, что именно минимизирует выражение. Так что должно быть что-то, что я неправильно понимаю (правильно?).E(Y|X)E(Y|X)XXh(X)h(X)h(X)h(X)

  1. У меня есть некоторые сомнения относительно значения в постановке задачи. Как следует понимать обозначения? Значит ли этоE[(Yg(X))2]E[(Yg(X))2]

EX[(Yg(X))2]EX[(Yg(X))2] , или ?EY[(Yg(X))2]EY[(Yg(X))2]EXY[(Yg(X))2]EXY[(Yg(X))2]

Мартин Ван дер Линден
источник

Ответы:

11

(Это адаптация Granger & Newbold (1986) «Прогнозирование экономических временных рядов»).

По построению, ваша функция затрат ошибка будет . Это включает в себя критическое предположение (что функция стоимости ошибки симметрична относительно нуля) - другая функция стоимости ошибки не обязательно будет иметь условное ожидаемое значение в качестве своего ожидаемого значения. Вы не можете минимизировать функцию стоимости ошибки, поскольку она содержит неизвестные количества. Таким образом, вы решили минимизировать его ожидаемое значение. Тогда ваша целевая функция становится[Yg(X)]2[Yg(X)]2argminargmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

который, я считаю, отвечает и на ваш второй вопрос. Это интуитивно , что ожидаемое значение будет иметь обусловливающие , так как мы пытаемся оценить / прогноз на основе . Разложить квадрат для полученияYYXXYYXX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

Первый член не содержит поэтому он не влияет на минимизацию, и его можно игнорировать. Интеграл во втором члене равен условному ожидаемому значению данного , а интеграл в последнем члене равен единице. Такg(X)g(X)YYXX

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

Первая производная по равна приводит к условию первого порядка для минимизацииg(X)g(X)2E(YX)+2g(X)2E(YX)+2g(X)g(X)=E(YX)g(X)=E(YX) а вторая производная равна что достаточно для минимума.2>02>0

ДОБАВЛЕНИЕ: логика подхода «сложение и вычитание».

ОП озадачен подходом, изложенным в вопросе, потому что он кажется тавтологическим. Это не так, потому что при использовании тактики сложения и вычитания получается конкретная часть целевой функции обнуляется для произвольного выбора добавляемого и вычитаемого термина, она НЕ выравнивает функцию значения , а именно значение цели Функция оценивается на минимизаторе кандидата.

Для выбора имеем функцию значения Для произвольного выбораg(X)=E(YX)g(X)=E(YX)V(E(YX))=E[(YE(YX))2X]V(E(YX))=E[(YE(YX))2X]g(X)=h(X)g(X)=h(X) имеем функцию значения .V(h(X))=E[(Yh(X))2X]V(h(X))=E[(Yh(X))2X]

Я утверждаю что

V(E(YX))V(h(X))

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]

Первый срок LHS и RHS отменяют. Также обратите внимание , что внешнее ожидание условно на . По свойствам условных ожиданий мы получаемXX

...2E(YX)E(YX)+[E(YX)]22E(YX)h(X)+[h(X)]2

...2E(YX)E(YX)+[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)h(x)]2

0[E(YX)h(x)]2
которое выполняется со строгим неравенством, если . Таким образом, является глобальным и уникальным минимизатором.h(x)E(YX)h(x)E(YX)E(YX)E(YX)

Но это также говорит о том, что подход «сложение и вычитание» здесь не самый убедительный способ доказательства.

Алекос Пападопулос
источник
Спасибо за ответ. Это помогает уточнить мой второй вопрос. Как я пытался передать в заголовке вопроса, моя главная проблема (первая в посте) была больше о механизме доказательства. Мое главное беспокойство связано с моим пониманием доказательства, которое я представил в этом вопросе. Как я объяснил, мое понимание доказательства приводит меня к явно проблематичному утверждению. Поэтому я хотел бы понять, где моя ошибка, поскольку она может выявить некоторые более глубокие недопонимания в отношении понятий ожидания и условного ожидания. Есть мысли по этому поводу?
Мартин Ван дер Линден
1
Я добавил некоторые пояснения к подходу «сложение и вычитание» для доказательства.
Алекос Пападопулос
Мне потребовалось некоторое время, чтобы понять это, но я наконец-то понял свою основную ошибку: достаточно верно когда , но это ни в коем случае не означает, что минимизирует выражение , Нет причины, по которой выражение в скобках не могло быть ниже нуля. Из-за знака минус перед можно найти такой , что . E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]=0E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]=0g(X)=h(X)g(X)=h(X)h(X)h(X)(Yh(X))(h(X)g(X))(Yh(X))(h(X)g(X))g(X)g(X)E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]<0E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]<0
Мартин Ван дер Линден,
1
Хммм ... знак минус в выражении, на которое вы ссылаетесь, является ошибкой - это должен быть знак плюс. Вы могли бы, конечно, затем изменить условия, чтобы снова получить знак минус ... это повредит полученной интуиции?
Алекос Пападопулос
Спасибо, что не отставали от вопроса. Я отредактировал первоначальный пост, чтобы исправить эту ошибку. К счастью, я думаю, что это не повредит полученной интуиции. На самом деле это помогает мне понять еще одну ошибку: я предполагал, что знак минус был важен, чтобы гарантировать, что не обязательно является минимумом . Но я понимаю, что речь идет не только о знаке до 2. (Надеюсь), что мне действительно нужно было понять, так это то, что в общем (т.е. для произвольного ) не нужно минимизировать, когда (верно?). 00E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]h(X)h(X)E[2(Yh(X))(h(X)g(X))]E[2(Yh(X))(h(X)g(X))]g(X)=h(X)g(X)=h(X)
Мартин Ван дер Линден,
5

Обратите внимание, что для подтверждения ответа вам нужно только показать, что

E[2(YE(Y|X))(E(Y|X)g(X))]=0

E[2(YE(Y|X))(E(Y|X)g(X))]=0

Что касается ожидания, вы принимаете его условно, в противном случае срок

argming(X)E[(Yg(X))2]

argming(X)E[(Yg(X))2]

Не имеет смысла, так как является случайной величиной, если - это а не . Покажите, что вы действительно должны написать или чтобы прояснить это. Теперь, учитывая это уточнение, термин является константой и может быть выведен за пределы ожидания, и вы получите:g(X)g(X)EEEXYEXYEY|XEY|XE[(Yg(X))2|X]E[(Yg(X))2|X]EY|X[(Yg(X))2]EY|X[(Yg(X))2](E(Y|X)g(X))(E(Y|X)g(X))

2(E(Y|X)g(X))E[(YE(Y|X))|X]=2(E(Y|X)g(X))[E(Y|X)E[E(Y|X)|X]]=2(E(Y|X)g(X))[E(Y|X)E(Y|X)]=0

2(E(Y|X)g(X))E[(YE(Y|X))|X]=2(E(Y|X)g(X))[E(Y|X)E[E(Y|X)|X]]=2(E(Y|X)g(X))[E(Y|X)E(Y|X)]=0

Следовательно, вы можете написать целевую функцию как:

EY|X[(Yg(X))2]=EY|X[(YEY|X(Y|X))2]+(EY|X(Y|X)g(X))2

EY|X[(Yg(X))2]=EY|X[(YEY|X(Y|X))2]+(EY|X(Y|X)g(X))2

Минимизатор очевиден отсюда. Обратите внимание, что если вы хотите усреднить по , то очень похожий аргумент можно использовать для показа:XX

EX[(E(Y|X)g(X))2]=EX[(EY|X(Y|X)EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]EX[g(X)])2

EX[(E(Y|X)g(X))2]=EX[(EY|X(Y|X)EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]EX[g(X)])2

Это показывает, что если вы установите для каждого , то у вас также будет минимизатор этой функции. Так что в некотором смысле не имеет значения, является ли или .g(X)=EY|X(Y|X)g(X)=EY|X(Y|X)XXEEEYXEYXEY|XEY|X

probabilityislogic
источник
3

Есть математическая точка зрения, которая очень проста. У вас есть проблема проекции в гильбертовом пространстве, очень похожая на проекцию вектора из на подпространство.Rn

Пусть обозначает основное вероятностное пространство. Чтобы задача имела смысл, рассмотрим случайные величины с конечными вторыми моментами, т. Е. Гильбертово пространство . Теперь проблема заключается в следующем: учитывая , найдите проекцию на подпространство , где является -подалгебра , порожденный . (Как и в случае конечного размера, минимизация -пространства к подпространству означает поиск проекции). Желаемая проекция(Ω,F,μ)L2(Ω,F,μ)X,YL2(Ω,F,μ)YL2(Ω,FX,μ)FXσFXL2E(X|Y) , по построению. (Это действительно характеризует , если проверять доказательство существования).E(X|Y)

Майкл
источник
Это прекрасный ответ.
JII
0

Что касается вашего последнего вопроса, ожидание может быть либо относительно (безусловная ошибка), либо относительно (условная ошибка при каждом значении ). К счастью, минимизация условной ошибки при каждом значении также минимизирует безусловную ошибку, так что это не принципиальное различие.p(x,y)p(yx)X=xX=x

Улисс Брага-Нето
источник