Я пытаюсь понять концепцию чрезмерной дисперсии в логистической регрессии. Я читал, что избыточная дисперсия - это когда наблюдаемая дисперсия переменной отклика больше, чем можно было бы ожидать от биномиального распределения.
Но если биномиальная переменная может иметь только два значения (1/0), как она может иметь среднее значение и дисперсию?
Я в порядке с вычислением среднего значения и дисперсии успехов от x числа испытаний Бернулли. Но я не могу обернуть голову вокруг понятия среднего значения и дисперсии переменной, которая может иметь только два значения.
Может ли кто-нибудь предоставить интуитивно понятный обзор:
- Понятие среднего значения и дисперсии в переменной, которая может иметь только два значения
- Концепция избыточной дисперсии в переменной, которая может иметь только два значения
Ответы:
Биноминальная случайная величина с испытаниями и вероятностью успеха может принимать более двух значений. Биноминальная случайная величина представляет количество успехов в этих испытаниях и может фактически принимать различных значений ( ). Таким образом, если дисперсия этого распределения больше, чем можно было бы ожидать при биномиальных допущениях (например, возможно, имеются избыточные нули), это случай избыточной дисперсии. р Н Н + 1 0 , 1 , 2 , 3 , . , , , NN p N N+1 0,1,2,3,...,N
Чрезмерная дисперсия не имеет смысла для случайной величины Бернулли ( )N=1
В контексте кривой логистической регрессии вы можете рассматривать «маленький срез» или группирование по узкому диапазону значений предикторов как реализацию биномиального эксперимента (возможно, у нас есть 10 точек в срезе с определенным числом успехи и неудачи). Несмотря на то, что у нас нет нескольких испытаний по каждому значению предиктора, и мы смотрим на пропорции, а не на необработанные значения, мы все равно ожидаем, что доля каждого из этих «срезов» будет близка к кривой. Если эти «срезы» имеют тенденцию находиться далеко от кривой, то распределение слишком велико. Таким образом, группируя наблюдения, вы создаете реализации биномиальных случайных величин, а не просматриваете данные 0/1 по отдельности.
Пример ниже взят из другого вопроса на этом сайте. Допустим, синие линии представляют ожидаемую пропорцию в диапазоне переменных предиктора. Синие клетки указывают на наблюдаемые случаи (в данном случае школы). Это дает графическое представление о том, как может выглядеть избыточная дисперсия . Обратите внимание, что существуют недостатки в интерпретации ячеек приведенного ниже графика, но это дает представление о том, как может проявиться избыточная дисперсия.
источник
Как уже отмечалось другими, избыточная дисперсия не применяется в случае переменной Бернулли (0/1), поскольку в этом случае среднее обязательно определяет дисперсию. В контексте логистической регрессии это означает, что если ваш результат является двоичным, вы не можете оценить параметр дисперсии. (NB. Это не означает, что вы можете игнорировать потенциальную корреляцию между наблюдениями только потому, что ваш результат является двоичным!)
Если, с другой стороны, ваш результат представляет собой набор пропорций, то вы можете оценить параметр дисперсии (который, хотя часто больше единицы, может быть меньше единицы), разделив статистику хи-квадрат Пирсона (или отклонение ) по остаточным степеням свободы.
Помните, что логистическая регрессия с чисто бинарным результатом является лишь частным случаем более общей модели логистической регрессии, в которой биномиальный индекс может превышать единицу (и может варьироваться в зависимости от наблюдения). Таким образом, вопрос о том, подходит ли вам модель логистической регрессии или нет, не связан с вопросом о том, являются ли ваши данные чрезмерно рассредоточенными.
источник