Интуитивное объяснение компромисса смещения?

46

Я ищу интуитивное объяснение компромисса смещения дисперсии, как в целом, так и конкретно в контексте линейной регрессии.

regression variance bias NPE
источник

1

Здесь есть еще одно обсуждение, относящееся к этим темам: что-проблема-делать-усадка-методы-решить .

gung - Восстановить Монику

scott.fortmann-roe.com/docs/BiasVariance.html

Пиноккио

24

Представьте себе некоторые 2D-данные - скажем, рост и вес для учащихся в старшей школе - нанесенные на пару осей.

Теперь предположим, что вы проходите через него по прямой линии. Эта линия, которая, конечно, представляет собой набор предсказанных значений, имеет нулевую статистическую дисперсию. Но уклон (вероятно) высок - то есть он не очень хорошо вписывается в данные.

Далее, предположим, что вы моделируете данные с помощью полиномиального сплайна высокой степени. Вы не удовлетворены подгонкой, поэтому вы увеличиваете степень полинома до тех пор, пока подгонка не улучшится (и это будет, с произвольной точностью, фактически). Теперь у вас есть ситуация со смещением, которое стремится к нулю, но дисперсия очень высока.

Обратите внимание, что компромисс между смещением и дисперсией не описывает пропорциональные отношения - т. Е. Если вы строите график смещения относительно дисперсии, вы не обязательно увидите прямую линию через начало координат с наклоном -1. В приведенном выше примере полиномиального сплайна уменьшение степени почти наверняка увеличивает дисперсию намного меньше, чем уменьшает смещение.

Компромисс смещения дисперсии также встроен в функцию ошибки квадратов. Ниже я переписал (но не изменил) обычную форму этого уравнения, чтобы подчеркнуть это:

альтернативный текст

С правой стороны есть три термина: первый из них - просто неустранимая ошибка (разница в самих данных); это вне нашего контроля, так что игнорируйте это. Второй член представляет собой квадрат смещения ; и третье - это дисперсия . Легко видеть, что, когда один поднимается, другой падает, они не могут различаться в одном и том же направлении. Другими словами, вы можете думать о регрессии наименьших квадратов как о (неявном) нахождении оптимальной комбинации смещения и дисперсии среди моделей-кандидатов.

Дуг
источник

8

y

$y$

x

$x$

f

$f$

f

$f$

σ^{2}

$\sigma^2$

f (x)

$f(x)$

x

$x$

whuber

уравнение хорошо (маленькие греческие буквы в числителе не «х», а «каппа»). Попробуйте это: начните с формулы для SSE, которая вас устраивает, и всего несколько шагов приведут вас к приведенной выше.

Дуги

Что такое «каппа» в этом контексте?

Я нуб. Не могли бы вы помочь мне интуитивно понять, почему в первой части вашего ответа вы говорите, что подгонка полиномиального сплайна приводит к увеличению дисперсии?

Рохит Банга

3

Более простой пример: y = a + b x + e (rror). Если я подгоняю константу к этому, смещение = b x и дисперсия = var (e) + дисперсия моей оценки вокруг истинного значения. Если я добавлю термин b * x в модель, смещение везде равно нулю, но теперь дисперсия включает в себя влияние ошибки моей оценки b, а также a и дисперсии e, поэтому будет выше, чем в первом кейс. Таким образом, существует компромисс между уменьшенным смещением, полученным путем добавления терминов в модель, которая должна быть там, и увеличенной дисперсией, полученной в результате оценки этих терминов и, возможно, добавления не относящихся к делу.

jbowman

25

Допустим, вы рассматриваете возможность страхования здоровья на случай катастроф, и вероятность заболеть составляет 1%, что обойдется в 1 миллион долларов. Таким образом, ожидаемая стоимость заболевания составляет 10000 долларов. Страховая компания, желающая получить прибыль, будет взимать с вас 15 000 за полис.

Покупка полиса дает вам ожидаемую стоимость в 15 000, которая имеет дисперсию 0, но может рассматриваться как предвзятая, поскольку она на 5000 больше реальной ожидаемой стоимости заболевания.

Если вы не купите полис, вы получите ожидаемую стоимость в 10 000, которая является непредвзятой, поскольку она равна реальной ожидаемой стоимости болезни, но имеет очень высокую дисперсию. Компромисс здесь находится между подходом, который последовательно ошибочен, но никогда не намного, и подходом, который является правильным в среднем, но является более переменным.

CDX
источник

15

Я настоятельно рекомендую ознакомиться с курсом Caltech ML Ясера Абу-Мостафы, лекция 8 (Bias-Variance Tradeoff) . Вот схемы:

Допустим, вы пытаетесь изучить функцию синуса:

Наш тренировочный набор состоит всего из 2 точек данных.

$h_0(x)=b$ $h_1(x)=ax+b$

$h_0(x)=b$

$h_1(x)=ax+b$

$h_0$ $h_1$ $h_0$ $h_1$ $h_0$ $h_1$ $h_0$ $h_1$

Если вы посмотрите на эволюцию функции стоимости по отношению к размеру обучающего набора (цифры из Coursera - Machine Learning by Andrew Ng ):

Высокий уклон:

введите описание изображения здесь

Высокая дисперсия:

введите описание изображения здесь

Франк Дернонкур
источник

h_{1}

$h_1$

D_{i}

$D_i$

({\hat{a}}_{i}, {\hat{b}}_{i})

$(\hat a_i,\hat b_i)$

x_{0}

$x_0$

({\hat{a}}_{i}, {\hat{b}}_{i})

$(\hat a_i,\hat b_i)$

{\hat{y}}_{0}

$\hat y_0$

{\hat{y}}_{0}

$\hat y_0$

(\hat{a}, \hat{b})

$(\hat a,\hat b)$

x

$x$

\hat{y}

$\hat y$

Ваша функция синуса инвертирована XP

Диего

1

Это сбивает с толку, потому что вы, кажется, имеете в виду графики, которых там нет (возможно, «alt text»).

gung - Восстановить Монику

@ gung исправлен, спасибо за указание на это. ImageShack закрывает бесплатные аккаунты и удаляет изображения . И Stack Exchange не смог принять соответствующие меры. Связанный: Запретите изображения ImageShack, потому что они повторно используют старые URL для рекламы (пожалуйста, поддержите запрет); Какой самый простой способ загрузить все мои вопросы + ответы на все сайты Stack Exchange? (Я рад, что у меня есть резервная копия; пожалуйста, нажмите StackExchange, чтобы предоставить лучшие инструменты для резервного копирования содержимого)

Франк Дернонкур

Спасибо за обмен ссылки видео, это объяснить , а то , что я искал, теперь можно понять ваш ответ

Espoir Murhabazi

13

Я обычно думаю об этих двух картинах:

Во-первых, значение смещения и дисперсии:

Представьте, что центр области глаза красных быков является истинным средним значением нашей целевой случайной величины, которую мы пытаемся предсказать, а красная область указывает разброс дисперсии этой переменной. Каждый раз, когда мы берем выборочный набор наблюдений и прогнозируем значение этой переменной, мы наносим синюю точку. Мы правильно предсказали, попадет ли синяя точка в красную область. Другими словами, смещение - это мера того, насколько далеки прогнозируемые синие точки от истинной красной области, интуитивно это ошибка. Дисперсия, насколько разбросаны наши прогнозы.

Теперь компромисс здесь:

когда мы пытаемся уменьшить один из этих параметров (смещение или дисперсию), другой параметр увеличивается. Но где-то посередине между не менее-менее предвзятым отношением и не менее-менее дисперсией есть слабое место, которое в конечном итоге дает наименьшую ошибку в прогнозировании.

Эти фотографии взяты с http://scott.fortmann-roe.com/docs/BiasVariance.html . Изучите объяснения с линейной регрессией и K-ближайшими соседями для более подробной информации

Тамме Говда
источник

первая цифра больше похожа на точность против точности?

KingBoomie

0

Вот очень простое объяснение. Представьте, что у вас есть точечный график точек {x_i, y_i}, которые были отобраны из некоторого распределения. Вы хотите подогнать к нему какую-нибудь модель. Вы можете выбрать линейную кривую или полиномиальную кривую более высокого порядка или что-то еще. Все, что вы выберете, будет применяться для прогнозирования новых значений y для набора {x_i} точек. Давайте назовем их проверочным набором. Давайте предположим, что вы также знаете их истинные значения {y_i}, и мы используем их только для проверки модели.

Прогнозируемые значения будут отличаться от реальных значений. Мы можем измерить свойства их различий. Давайте просто рассмотрим одну точку проверки. Назовите это x_v и выберите модель. Давайте сделаем набор прогнозов для этой одной точки проверки, используя, скажем, 100 различных случайных выборок для обучения модели. Итак, мы собираемся получить 100 у значений. Разница между средним значением этих значений и истинным значением называется смещением. Дисперсия распределения - это дисперсия.

В зависимости от того, какую модель мы используем, мы можем обменяться между этими двумя. Давайте рассмотрим две крайности. Модель с наименьшей дисперсией - та, в которой данные полностью игнорируются. Допустим, мы просто предсказываем 42 для каждого х. Эта модель имеет нулевую дисперсию в разных обучающих выборках в каждой точке. Однако это явно предвзято. Уклон просто 42-й_в.

Другой крайностью является то, что мы можем выбрать модель, которая подходит как можно больше. Например, подогнать полином 100 градусов к 100 точкам данных. Или, в качестве альтернативы, линейно интерполировать между ближайшими соседями. Это имеет низкий уклон. Почему? Потому что для любой случайной выборки соседние точки к x_v будут сильно колебаться, но они будут интерполироваться выше примерно так же часто, как они будут интерполироваться низко. Таким образом, в среднем по выборкам они будут отменены, и поэтому смещение будет очень низким, если только на истинной кривой не будет много высокочастотных вариаций.

Однако эти модели наложения имеют большую дисперсию по случайным выборкам, потому что они не сглаживают данные. Модель интерполяции просто использует две точки данных, чтобы предсказать промежуточную, и поэтому они создают много шума.

Обратите внимание, что смещение измеряется в одной точке. Неважно, положительный он или отрицательный. Это все еще предвзятое отношение к любому данному x. Смещения, усредненные по всем значениям x, вероятно, будут небольшими, но это не делает их беспристрастными.

Еще один пример. Скажем, вы пытаетесь предсказать температуру в ряде мест в США в какое-то время. Предположим, у вас есть 10000 тренировочных очков. Опять же, вы можете получить модель с малой дисперсией, выполнив что-то простое, просто вернув среднее значение. Но в штате Флорида этот показатель будет низким, а в штате Аляска - высоким. Вам было бы лучше, если бы вы использовали среднее для каждого штата. Но даже тогда вы будете склонны к высоким зимой и низким летом. Итак, теперь вы включаете месяц в вашу модель. Но вы все равно будете предвзяты низко в Долине Смерти и высоко на горе Шаста. Итак, теперь вы переходите на уровень детализации почтового индекса. Но в конечном итоге, если вы продолжите делать это, чтобы уменьшить смещение, у вас закончатся точки данных. Может быть, для данного почтового индекса и месяца у вас есть только одна точка данных. Очевидно, что это создаст много дисперсии. Итак, вы видите, что более сложная модель снижает смещение за счет дисперсии.

Итак, вы видите, что есть компромисс. Модели, которые являются более плавными, имеют меньшую дисперсию в обучающих выборках, но также не отражают реальную форму кривой. Менее гладкие модели лучше отражают кривую, но за счет того, что они более шумные. Где-то посередине находится модель Златовласки, которая делает приемлемый компромисс между ними.

Dave31415
источник

0

Представьте себе, можно ли повторить задачу построения модели для разных наборов обучающих данных, т.е. мы каждый раз готовим новую модель для разных наборов данных (показано на рисунке ниже). Если мы исправим тестовую точку данных и оценим прогноз модели на этой точке, прогнозы будут варьироваться из-за случайности в процессе генерации модели. Из рисунка ниже для этой ситуации P_1, P_2,…, P_n - разные предсказания и тоже случайные.