О том, существует ли термин ошибки в логистической регрессии (и его предполагаемом распределении), я читал в разных местах, что:
- Термин ошибки не существует
- термин ошибки имеет биномиальное распределение (в соответствии с распределением переменной ответа)
- термин ошибки имеет логистическое распределение
Может кто-нибудь уточнить, пожалуйста?
Ответы:
Предполагается, что при линейной регрессии наблюдения следуют гауссову распределению со средним параметром, зависящим от значений предиктора. Если вы вычтете среднее значение из наблюдений, вы получите ошибку : гауссово распределение со средним нулем и независимо от значений предикторов, то есть ошибки при любом наборе значений предикторов следуют тому же распределению.
«Термин ошибки имеет биномиальное распределение» (2) - просто неряшливость - «Гауссовские модели имеют гауссовские ошибки, эргономические биномиальные модели имеют биномиальные ошибки». (Или, как указывает @whuber, это может означать, что «разница между наблюдением и его ожиданием имеет биномиальное распределение, переведенное ожиданием».)
«Термин ошибки имеет логистическое распределение» (3) возникает в результате выведения логистической регрессии из модели, в которой вы наблюдаете, превышает ли скрытая переменная с ошибками после логистического распределения какой-либо порог. Так что это не та же самая ошибка, определенная выше. (Было бы странно говорить IMO вне этого контекста или без явной ссылки на скрытую переменную.)
источник
источник
Для меня унификация логистической, линейной, пуассоновской регрессии и т. Д. Всегда была с точки зрения спецификации среднего значения и дисперсии в рамках Обобщенной линейной модели. Мы начинаем с определения распределения вероятностей для наших данных, нормального для непрерывных данных, Бернулли для дихотомического, Пуассона для счетчиков и т. Д. Затем мы указываем функцию связи, которая описывает, как среднее значение связано с линейным предиктором:
Единственное, что можно было бы рассмотреть при написании термина ошибки, это указать:
источник
источник