Дисперсионный член в разностной декомпозиции линейной регрессии

9

В «Элементах статистического обучения» выражение для разложения смещения дисперсии линейной модели дается как где - фактическая целевая функция, - дисперсия случайной ошибки в модели и - линейная оценка функции .F ( х 0 ) σ 2 ε у = F ( х ) + ε

Ерр(Икс0)знак равноσε2+Е[е(Икс0)-Ее^(Икс0)]2+||час(Икс0)||2σε2,
е(Икс0)σε2Yзнак равное(Икс)+εе^(Икс)е(Икс)

Термин дисперсии беспокоит меня здесь, потому что уравнение подразумевает, что дисперсия будет нулевой, если цели бесшумны, то естьНо это не имеет смысла для меня, потому что даже при нулевом шуме я все еще могу получить разные оценки для разных обучающих наборов, что означает, что дисперсия не равна нулю.σε2знак равно0.е^(Икс0)

Например, предположим, что целевая функция е(Икс0) является квадратичной, а обучающие данные содержат две точки, выбранные случайным образом из этой квадратичной; ясно, что я получу различное линейное приближение каждый раз, когда я выбираю две точки случайным образом из квадратичной цели. Тогда как дисперсия может быть нулевой?

Может ли кто-нибудь помочь мне выяснить, что не так в моем понимании разложения смещения?

Абхинав Гупта
источник

Ответы:

6

Всегда есть скрытая тонкость в лечении предвзятости и дисперсии, и важно обращать на это внимание при изучении. Если вы перечитаете первые несколько слов ESL в разделе из этой главы, авторы будут уважать его.

Обсуждение оценки частоты ошибок может сбивать с толку, потому что мы должны четко определить, какие величины являются фиксированными, а какие случайными

Тонкость заключается в том, что является фиксированным, а что является случайным .

В традиционных методах линейной регрессии данные считаются фиксированными и известными. Если вы будете следовать аргументам в ESL, вы обнаружите, что авторы также делают это предположение. В этих предположениях, ваш пример не входит в игру, как только оставшийся источник случайности от условного распределения данного . Если это поможет, вы можете заменить обозначение в своем уме на .ИксYИксЕрр(Икс0)Ерр(Икс0|Икс)

Это не означает, что ваша проблема недействительна, это правда, что выбор обучающих данных действительно вносит случайность в наш алгоритм модели, и прилежный практик будет пытаться количественно оценить влияние этой случайности на их результаты. На самом деле, вы можете ясно видеть, что обычные практики начальной загрузки и перекрестной проверки явно включают эти источники случайности в свои выводы.

Чтобы получить явное математическое выражение для смещения и дисперсии линейной модели в контексте набора случайных обучающих данных, необходимо сделать некоторые предположения о структуре случайности в данныхЭто будет включать некоторые предположения о распределении . Это может быть сделано, но не стало частью основных представлений этих идей.ИксИкс

Мэтью Друри
источник
ИксY|Икс(Икс,Y)Езнак равноЕИксЕY|ИксВaр(е^(Икс0))знак равноЕИкс[||час(Икс0)||2σε2]σε2
Я предполагаю, что авторы предполагают, что модель правильно указана, то есть включает все и только соответствующие предикторы с правильными преобразованиями. Я должен вернуться к книге, а не полагаться на свою память, чтобы подтвердить, хотя.
Мэтью Друри
Если под «правильно заданным» вы подразумеваете, что целевая функция действительно линейна, тогда я понимаю, что нулевой шум подразумевает нулевое смещение. Но оказывается, что даже если целевая функция не является линейной, мы получаем точно такое же выражение для дисперсии.
Абхинав Гупта
1
Это правда, но в этом случае «правильно заданный» будет означать, что вы используете линейную регрессию для подбора модели, включающей в себя правильные предикторы. Таким образом, если истинные отношения квадратичны, то вы предполагаете, что ваша модель включает в себя квадратичные термины.
Мэтью Друри