Существует ли графическое представление компромисса смещения в линейной регрессии?

18

Я страдаю от затемнения. Мне представили следующую картину, чтобы продемонстрировать компромисс смещения дисперсии в контексте линейной регрессии:

Полиномиальная модель для данных, простой и сложный случай

Я вижу, что ни одна из двух моделей не подходит - «простая» не оценивает сложность отношения XY, а «сложная» просто переобучается, в основном, выучивая данные обучения наизусть. Однако я совершенно не вижу смещения и дисперсии на этих двух рисунках. Может ли кто-нибудь показать это мне?

PS: Ответ на интуитивное объяснение компромисса смещения дисперсии? мне не очень помогло, я был бы рад, если бы кто-то мог предложить другой подход, основанный на вышеупомянутой картине.

blubb
источник

Ответы:

11

Компромисс отклонения смещения основан на разбивке среднеквадратичной ошибки:

MSE(y^)=E[yy^]2=E[yE[y^]]2+E[y^E[y^]]2

Один из способов увидеть смещение дисперсии - это то, какие свойства набора данных используются при подборе модели. Для простой модели, если мы предположим, что регрессия OLS использовалась, чтобы соответствовать прямой линии, то только 4 числа используются, чтобы соответствовать линии:

  1. Пример ковариации между х и у
  2. Выборочная дисперсия х
  3. Выборочное среднее х
  4. Выборочное среднее у

Таким образом, любой график, который приводит к тем же 4 числам, приведенным выше, приведет к точно такой же подобранной линии (10 баллов, 100 баллов, 100000000 баллов). Таким образом, в некотором смысле он нечувствителен к конкретному наблюдаемому образцу. Это означает, что он будет «предвзятым», потому что он эффективно игнорирует часть данных. Если эта игнорируемая часть данных оказалась важной, то прогнозы будут последовательно ошибочными. Вы увидите это, если сравнить сопоставленную линию, используя все данные, с подобранными линиями, полученными при удалении одной точки данных. Они будут иметь тенденцию быть достаточно стабильными.

Теперь вторая модель использует каждый кусочек данных, которые она может получить, и подбирает данные как можно ближе. Следовательно, точное положение каждой точки данных имеет значение, и поэтому вы не можете перемещать данные обучения без изменения подходящей модели, как вы можете для OLS. Таким образом, модель очень чувствительна к конкретному тренировочному набору, который у вас есть. Подогнанная модель будет сильно отличаться, если вы сделаете один и тот же график точек сброса данных.

probabilityislogic
источник
Смещения и дисперсия параметров модели оценки & thetas или предсказанное выходное значение у ? Некоторые люди говорят мне, что термины смещение и дисперсия могут использоваться только для описания параметра модели θ , а не данных x , y , верно? θ^y^θx,y
авокадо
Я не думаю , что это правда, я думаю , вы говорите о предсказании ( у ) в зависимости от оценки ( & thetas ). Оба имеют понятия смещения и дисперсии - например, у вас есть «СИНИЙ» для параметра регрессии и «СИНИЙ» для прогнозирования будущей точки данных. y^θ^
вероятностная
θ^bias(θ^)=θE[θ^]θf(x)=a+bx+cx2h(x)=d+ex(a,b,c)(d,e)bias(d)bias(e)
@loganecolss - это не парадокс, поскольку понятие смещения существует только «локально», то есть в отношении данной статистической модели. «Парадокс» существует для человека, который: 1) знает «истинную модель» и 2) решает не использовать ее. Этот человек идиот в моей книге. Если вы не знаете «истинную модель», то проблемы не возникает - если вы не нашли хорошую модель и решили ее не использовать ...
вероятностный
1
f(x,z1,z2,,zK)ziK
вероятностная
5

Подводя итог тому, что я думаю, я знаю нематематически:

  • смещение - ваш прогноз будет неверным, когда вы используете простую модель, и это произойдет с любым набором данных, на котором вы используете модель. Ваш прогноз, как ожидается, будет неверным
  • дисперсия - если вы используете сложную модель, вы получите очень разные прогнозы в зависимости от того, какой набор данных вы используете

Эта страница имеет довольно хорошее объяснение с диаграммами, похожими на те, которые вы опубликовали. (Хотя я пропустил верхнюю часть, просто прочитайте часть с диаграммами) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htm (при наведении курсора показан другой пример, если вы не заметили!)

король
источник
Это интересная страница и хорошие иллюстрации, но я нахожу их более запутанными, чем полезными, потому что (а) "смещение" и "дисперсия", обсуждаемые в контексте регрессии, не кажутся смещением и дисперсией, как определено в начале этого страницы и (б) совсем не ясно, что сделанные заявления (о том, как смещение и дисперсия изменяются с количеством параметров) являются правильными.
whuber