Я изо всех сил пытаюсь понять концепцию смещения в контексте анализа линейной регрессии.
Каково математическое определение смещения?
Что именно является предвзятым и почему / как?
Наглядный пример?
источник
Я изо всех сил пытаюсь понять концепцию смещения в контексте анализа линейной регрессии.
Каково математическое определение смещения?
Что именно является предвзятым и почему / как?
Наглядный пример?
Смещение - это разница между ожидаемым значением оценщика и истинным оцениваемым значением. Например, среднее значение выборки для простой случайной выборки (SRS) является объективной оценкой среднего значения по совокупности, потому что если вы возьмете все возможные SRS, найдите их средства и возьмете среднее из этих значений, то вы получите среднее по совокупности (для конечного население это просто алгебра, чтобы показать это). Но если мы используем механизм выборки, который каким-то образом связан со значением, тогда среднее значение может стать предвзятым, представьте случайную цифру набора номера, задающую вопрос о доходе.
Есть также некоторые оценки, которые естественно смещены. Усеченное среднее будет смещено для перекошенной популяции / распределения. Стандартное отклонение несмещено для SRS, если либо среднее значение популяции используется со знаменателем либо среднее значение выборки используется со знаменателем n - .
Вот простой пример с использованием R, мы генерируем группу выборок из нормали со средним 0 и стандартным отклонением 1, затем вычисляем среднее среднее значение, дисперсию и стандартное отклонение от выборок. Обратите внимание, насколько средние значения и средние значения дисперсии близки к истинным значениям (ошибка выборки означает, что они не будут точными), теперь сравните среднее значение sd, это смещенная оценка (хотя и не смещенная).
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
В регрессии мы можем получить необъективные оценки уклонов, выполняя ступенчатую регрессию. Переменная, скорее всего, будет сохраняться в пошаговой регрессии, если предполагаемый наклон больше 0 и более вероятно, что она будет отброшена, если она ближе к 0, так что это смещенная выборка, и наклоны в окончательной модели будут иметь тенденцию к дальнейшему от 0, чем истинный наклон. Методы, такие как наклон смещения регрессии лассо и гребня к 0, чтобы противостоять смещению выбора от 0.
Смещение означает, что ожидаемое значение оценки не равно параметру совокупности.
Интуитивно понятно, что в регрессионном анализе это будет означать, что оценка одного из параметров является слишком высокой или слишком низкой. Однако обычные регрессионные оценки методом наименьших квадратов являются СИНИМИ, что означает лучшие линейные несмещенные оценки. В других формах регрессии оценки параметров могут быть смещены. Это может быть хорошей идеей, потому что часто существует компромисс между смещением и дисперсией. Например, регрессия гребня иногда используется для уменьшения дисперсии оценок при наличии коллинеарности.
Простой пример может проиллюстрировать это лучше, хотя и не в контексте регрессии. Предположим, вы весите 150 фунтов (проверено по шкале весов, в которой вы в одной корзине, а в другой - куча гирь). Теперь у вас есть две напольные весы. Вы взвешиваете себя 5 раз на каждом.
Шкала 1 дает веса 152, 151, 151,5, 150,5 и 152.
Шкала 2 дает веса 145, 155, 154, 146 и 150.
Шкала 1 смещена, но имеет меньшую дисперсию; средний вес не ваш истинный вес. Шкала 2 является беспристрастной (в среднем 150), но имеет гораздо более высокую дисперсию.
Какой масштаб "лучше"? Это зависит от того, что вы хотите, чтобы шкала делала.
источник
В линейном регрессионном анализе смещение относится к ошибке, которая вводится путем аппроксимации реальной проблемы, которая может быть сложной, гораздо более простой моделью. Проще говоря, вы предполагаете простую линейную модель, такую как y * = (a *) x + b *, где, как и в реальной жизни, бизнес-задачей может быть y = ax ^ 3 + bx ^ 2 + c.
Можно сказать, что ожидаемый тест MSE (среднеквадратическая ошибка) из задачи регрессии может быть разложен, как показано ниже. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)
f * -> функциональная форма, принятая для модели линейной регрессии y0 -> исходное значение отклика, записанное в тестовых данных x0 -> оригинальное значение предиктора, записанное в тестовых данных e -> неприводимая ошибка Итак, цель состоит в том, чтобы выбрать лучший метод для получения модели, которая достигается низкая дисперсия и низкий уклон.
Примечание. Введение в статистическое обучение Тревора Хасти и Роберта Тибширани дает хорошее представление об этой теме.
источник