Что интуитивно означает «предвзятость»?

Я изо всех сил пытаюсь понять концепцию смещения в контексте анализа линейной регрессии.

Каково математическое определение смещения?
Что именно является предвзятым и почему / как?
Наглядный пример?

regression terminology bias definition Fabian
источник

Ответы:

Смещение - это разница между ожидаемым значением оценщика и истинным оцениваемым значением. Например, среднее значение выборки для простой случайной выборки (SRS) является объективной оценкой среднего значения по совокупности, потому что если вы возьмете все возможные SRS, найдите их средства и возьмете среднее из этих значений, то вы получите среднее по совокупности (для конечного население это просто алгебра, чтобы показать это). Но если мы используем механизм выборки, который каким-то образом связан со значением, тогда среднее значение может стать предвзятым, представьте случайную цифру набора номера, задающую вопрос о доходе.

Есть также некоторые оценки, которые естественно смещены. Усеченное среднее будет смещено для перекошенной популяции / распределения. Стандартное отклонение несмещено для SRS, если либо среднее значение популяции используется со знаменателем либо среднее значение выборки используется со знаменателем $n$ . $n-1$

Вот простой пример с использованием R, мы генерируем группу выборок из нормали со средним 0 и стандартным отклонением 1, затем вычисляем среднее среднее значение, дисперсию и стандартное отклонение от выборок. Обратите внимание, насколько средние значения и средние значения дисперсии близки к истинным значениям (ошибка выборки означает, что они не будут точными), теперь сравните среднее значение sd, это смещенная оценка (хотя и не смещенная).

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

В регрессии мы можем получить необъективные оценки уклонов, выполняя ступенчатую регрессию. Переменная, скорее всего, будет сохраняться в пошаговой регрессии, если предполагаемый наклон больше 0 и более вероятно, что она будет отброшена, если она ближе к 0, так что это смещенная выборка, и наклоны в окончательной модели будут иметь тенденцию к дальнейшему от 0, чем истинный наклон. Методы, такие как наклон смещения регрессии лассо и гребня к 0, чтобы противостоять смещению выбора от 0.

Грег Сноу
источник

SRS?

$\text{ }$

кардинал

@cardinal Простой Случайный Образец.

whuber

@ Whuber: Вау. Хотя аббревиатура имеет смысл, я не припоминаю, чтобы она встречалась в более формальных условиях. Существуют ли конкретные подполя или прикладные области, в которых это «стандартный» инициализм?

кардинал

@cardinal См. en.wikipedia.org/wiki/Simple_random_sample

whuber

(+1) Редактирование @ whuber помогло уточнить этот ответ.

кардинал

Смещение означает, что ожидаемое значение оценки не равно параметру совокупности.

Интуитивно понятно, что в регрессионном анализе это будет означать, что оценка одного из параметров является слишком высокой или слишком низкой. Однако обычные регрессионные оценки методом наименьших квадратов являются СИНИМИ, что означает лучшие линейные несмещенные оценки. В других формах регрессии оценки параметров могут быть смещены. Это может быть хорошей идеей, потому что часто существует компромисс между смещением и дисперсией. Например, регрессия гребня иногда используется для уменьшения дисперсии оценок при наличии коллинеарности.

Простой пример может проиллюстрировать это лучше, хотя и не в контексте регрессии. Предположим, вы весите 150 фунтов (проверено по шкале весов, в которой вы в одной корзине, а в другой - куча гирь). Теперь у вас есть две напольные весы. Вы взвешиваете себя 5 раз на каждом.

Шкала 1 дает веса 152, 151, 151,5, 150,5 и 152.

Шкала 2 дает веса 145, 155, 154, 146 и 150.

Шкала 1 смещена, но имеет меньшую дисперсию; средний вес не ваш истинный вес. Шкала 2 является беспристрастной (в среднем 150), но имеет гораздо более высокую дисперсию.

Какой масштаб "лучше"? Это зависит от того, что вы хотите, чтобы шкала делала.

Питер Флом - Восстановить Монику
источник

Хотя определение предвзятости верное, я боюсь, что примеры путают его с неточностью, которая является чем-то совершенно другим! Смещение является свойством статистической процедуры (оценщика), в то время как точность является свойством процесса измерения . (-1).

whuber

@whuber: Да, я согласен с этим. И я все еще думаю, что даже в этом случае необходимо прояснить разницу между математическим ожиданием и средним по выборке, поскольку они относятся к смещению.

кардинал

Нет, я не пытался сказать что-либо о «неточности» (что очень трудно определить), а о «дисперсии». Одна шкала беспристрастна, другая имеет низкую дисперсию. Я не использовал слово «точный» или «точность». Шкала, которая имеет тенденцию оценивать ваш вес слишком высоко (или слишком низко) смещена.

Питер Флом - Восстановить Монику

Но это чувство «предвзятости» является просто синонимом неточного; это не то же самое, что определение, которое вы дали в первой строке. Более того, как указывает @cardinal, в примере также смешивается ожидание со средним значением конкретной выборки.

whuber

Я согласен с @whuber здесь. В (правильном) смысле предвзятости, о которой спрашивает ОП, это не шкала, которая является предвзятой или беспристрастной, а скорее любая оценка вашего веса, которую вы извлекаете из ее измерений!

кардинал

В линейном регрессионном анализе смещение относится к ошибке, которая вводится путем аппроксимации реальной проблемы, которая может быть сложной, гораздо более простой моделью. Проще говоря, вы предполагаете простую линейную модель, такую как y * = (a *) x + b *, где, как и в реальной жизни, бизнес-задачей может быть y = ax ^ 3 + bx ^ 2 + c.

Можно сказать, что ожидаемый тест MSE (среднеквадратическая ошибка) из задачи регрессии может быть разложен, как показано ниже. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)

f * -> функциональная форма, принятая для модели линейной регрессии y0 -> исходное значение отклика, записанное в тестовых данных x0 -> оригинальное значение предиктора, записанное в тестовых данных e -> неприводимая ошибка Итак, цель состоит в том, чтобы выбрать лучший метод для получения модели, которая достигается низкая дисперсия и низкий уклон.

Примечание. Введение в статистическое обучение Тревора Хасти и Роберта Тибширани дает хорошее представление об этой теме.

ганга
источник

Это часто называют чем-то вроде «ошибки неправильной спецификации модели», чтобы не путать это со стандартным определением смещения, данным в принятом ответе. В противном случае было бы невозможно понять (правильное) утверждение, что OLS является объективной оценкой коэффициентов регрессоров.

whuber