Математическая интуиция смещения-дисперсии

12

Недавно я задал вопрос, пытаясь найти математическую интерпретацию / интуицию за элементарным уравнением, касающимся среднего значения выборки и дисперсии: , геометрическое или иное.E[X2]=Var(X)+(E[X])2

Но теперь мне интересно узнать внешне похожее уравнение компромисса смещения.

MSE(θ^)=E[(θ^θ)2]=E[(θ^E[θ^])2]+(E[θ^]θ)2=Var(θ^)+Bias(θ^,θ)2
(формулы из Википедии )

Для меня есть поверхностное сходство с уравнением компромисса смещения дисперсии для регрессии: три слагаемых с квадратами и два с добавлением к другому. Очень пифагорейский вид. Есть ли похожие векторные отношения, включая ортогональность для всех этих элементов? Или есть какая-то другая математическая интерпретация, которая применима?

Я ищу математическую аналогию с некоторыми другими математическими объектами, которые могут пролить свет. Я не ищу аналогию точности-точности, которое хорошо освещено здесь. Но если есть нетехнические аналогии, которые люди могут дать между компромиссом между отклонением и гораздо более базовым отношением среднего отклонения, это тоже было бы здорово.

Митч
источник

Ответы:

12

Сходство более чем поверхностное.

«Компромисс смещения дисперсии» можно интерпретировать как теорему Пифагора, примененную к двум перпендикулярным евклидовым векторам: длина одного является стандартным отклонением, а длина другого - смещением. Длина гипотенузы является среднеквадратичной ошибкой.

Фундаментальные отношения

В качестве отправной точки рассмотрим этот показательный расчет, действительный для любой случайной величины с конечным вторым моментом и любого действительного числа . Поскольку второй момент конечен, имеет конечное среднее для которого , откудаXaXμ=E(X)E(Xμ)=0

(1)E((Xa)2)=E((Xμ+μa)2)=E((Xμ)2)+2E(Xμ)(μa)+(μa)2=Var(X)+(μa)2.

Это показывает , как средний квадрат отклонения между и любой «базовой линии» значение изменяется с : она является квадратичной функцией с минимумом , где средний квадрат отклонения дисперсия .XaaaμX

Связь с оценками и предвзятостью

Любая оценка является случайной величиной, потому что (по определению) это (измеримая) функция случайных величин. Позволяя ему играть роль в предыдущем, и позволяя оценке (вещь, которую должен оценивать ) быть , мы имеемθ^Xθ^θ

MSE(θ^)=E((θ^θ)2)=Var(θ^)+(E(θ^)θ)2.

Давайте вернемся к теперь, когда мы увидели, что утверждение о смещении + дисперсия для оценки буквально является случаем . Вопрос ищет «математические аналогии с математическими объектами». Мы можем сделать больше, чем просто, показывая, что квадратично интегрируемые случайные величины могут быть естественно преобразованы в евклидово пространство.(1)(1)

Математическое обоснование

В очень общем смысле случайная величина - это (измеримая) вещественная функция на вероятностном пространстве . Множество таких функций, которые являются квадратично интегрируемыми, что часто пишется (с учетом данной структуры вероятности), почти является гильбертовым пространством. Для того, чтобы сделать это в единое целое, мы должны приравнивать любые две случайные величины и , которые на самом деле не отличаются с точки зрения интеграции: то есть, мы говорим и являются эквивалентными , когда(Ω,S,P)L2(Ω)XYXY

E(|XY|2)=Ω|X(ω)Y(ω)|2dP(ω)=0.

Это просто , чтобы проверить , что это истинное отношение эквивалентности: самое главное, когда эквивалентен и эквивалентно , то обязательно будет эквивалентен . Поэтому мы можем разбить все квадратично интегрируемые случайные величины на классы эквивалентности. Эти классы образуют множество . Кроме того, наследует векторное пространство , структура определяется поточечного сложения значений и точечно скалярного умножения. На этом векторном пространстве функцияXYYZXZL2(Ω)L2L2

X(Ω|X(ω)|2dP(ω))1/2=E(|X|2)

является нормой , часто пишется . Эта норма превращает в гильбертово пространство. Думайте о гильбертовом пространстве как о "бесконечномерном евклидовом пространстве". Любое конечномерное подпространство наследует норму от и , с этой нормой, является евклидовым пространством: в нем мы можем сделать евклидову геометрию.||X||2L2(Ω)HVHHV

Наконец, нам нужен один факт, который является особенным для вероятностных пространств (а не пространств общих мер): поскольку является вероятностью, она ограничена (на ), откуда постоянные функции (для любого фиксированное действительное число ) - квадратично интегрируемые случайные величины с конечными нормами.P1ωaa

Геометрическая интерпретация

Рассмотрим любую квадратично-интегрируемую случайную величину , которая рассматривается как представитель ее класса эквивалентности в . Он имеет средний , которые (как можно проверить) зависит только от класса эквивалентности . Пусть будет классом постоянной случайной величины.XL2(Ω)μ=E(X)X1:ω1

X и порождают евклидово подпространство , размерность которого не больше . В этом подпространстве - это квадрат длины а - квадрат длины постоянной случайной величины . Принципиально, что перпендикулярен . (Одно из определений - это уникальный номер, для которого это так.) Соотношение можно записать1VL2(Ω)2||X||22=E(X2)X||a1||22=a2ωaXμ11μ(1)

||Xa1||22=||Xμ1||22+||(aμ)1||22.

Это действительно точно теорема Пифагора, в сущности та же самая форма, известная 2500 лет назад. Объект является гипотенузой прямоугольного треугольника с ножками и .

Xa1=(Xμ1)(aμ)1
Xμ1(aμ)1

Если вам нужны математические аналогии, вы можете использовать все, что можно выразить в терминах гипотенузы прямоугольного треугольника в евклидовом пространстве. Гипотенуза будет представлять «ошибку», а ноги - смещение и отклонения от среднего.

Whuber
источник
Превосходно. Таким образом, рассуждения почти идентичны рассуждениям для моего предыдущего вопроса re . Итак, есть аналогия между ними, верно? Интуитивно кажется, что смещение аналогично значению. И обобщение состоит в том, что среднее значение является первым моментом по отношению к 0, но смещение относится к истинному значению параметра. Это звучит правильно? Var=EX2(EX)2
Митч
Да - с условием (которое является дополнением к геометрической интерпретации), что правильный способ измерить эти вещи с точки зрения их квадратов.
whuber
Итак, у меня есть связанный вопрос. Для любого машинного обучения у меня есть эти две концепции: «если мы увеличим размер выборки, дисперсия асимптотически несмещенной оценки будет стремиться к нулю» и «если мы увеличим сложность модели, следовательно, у нас будет низкий уклон и высокая дисперсия» , Следовательно, могу ли я сказать, что большая вычислительная мощность обеспечивает большую сложность, которая уменьшает смещение, но увеличивает дисперсию. Однако при асимптотике это увеличение дисперсии будет компенсировано.
АРАТ
@Mustafa Вы делаете сильные предположения. Во-первых, выборка является случайной и (по крайней мере, приблизительно) независимой, что часто не относится к приложениям ML. Выводы об увеличении сложности модели, как правило, не верны, отчасти потому, что «увеличение сложности» подразумевает, что вы меняете модель, и это ставит под сомнение значение того, что оценивает ваш оценщик, а также то, как этот оценщик может быть связан с его оценкой , Из этого не обязательно следует, что увеличение сложности модели оказывает какое-либо предсказуемое влияние на смещение или дисперсию.
whuber
4

Это способ визуально подумать о точности и компромиссе между отклонениями. Предположим, вы смотрите на цель и делаете много выстрелов, которые разбросаны близко к центру цели таким образом, что нет смещения. Тогда точность определяется только дисперсией, а когда дисперсия мала, стрелок точен.

Теперь давайте рассмотрим случай, когда есть большая точность, но большой уклон. В этом случае снимки разбросаны вокруг точки, удаленной от центра. Что-то портит прицел, но вокруг этой цели каждый выстрел близок к этой новой точке. Стрелок точный, но очень неточный из-за предвзятости.

Есть и другие ситуации, когда кадры точны из-за небольшого смещения и высокой точности. То, что мы хотим, - это не смещение, а небольшое отклонение или небольшое отклонение с небольшим смещением. В некоторых статистических задачах вы не можете иметь и то, и другое. Таким образом, MSE становится мерой точности, которую вы хотите использовать, которая компенсирует компромисс дисперсионного смещения, и минимизация MSE должна быть целью.

Майкл Р. Черник
источник
Превосходное интуитивное описание повторяющихся отклонений и аналогий точности и точности. Я также ищу математическую интерпретацию, такую ​​как теорема Пифагора.
Митч
1
Я не сосредоточился на этом, потому что он был освещен в другом посте, в котором обсуждалась геометрическая интерпретация. Я найду ссылку для вас.
Майкл Р. Черник
@Mitch Поиск "компромисса смещения отклонений" дал 134 хита на сайте резюме. Я еще не нашел теорему Пифагора, но она действительно хороша и содержит картину целей, которые я обсуждал в этом посте. «Интуитивное объяснение компромисса смещения».
Майкл Р. Черник
Я нашел ту, которую искал от 5 января 2017 года «интуиция (геометрическая или другая) Вар (X) = E [ ] - ( ).X2E[X])2
Майкл Р. Черник,
@ Митч Я не понял, что ты опубликовал вопрос, который я искал.
Майкл Р. Черник