Мой вопрос: какова математическая связь между распределением Бета и коэффициентами модели логистической регрессии ?
Для иллюстрации: логистическая (сигмоидальная) функция задается
и он используется для моделирования вероятностей в модели логистической регрессии. Пусть - дихотомический результат, а - матрица дизайна. Модель логистической регрессии задается
Примечание имеет первый столбец с постоянной (точка пересечения), а - вектор столбцов коэффициентов регрессии. Например, когда у нас есть один (стандартный-нормальный) регрессор и мы выбираем (перехват) и , мы можем смоделировать результирующее «распределение вероятностей».
Этот график напоминает распределение бета (как и графики для других вариантов ), плотность которого определяется как
Используя максимальное правдоподобие или методы моментов, можно оценить и q из распределения P ( A = 1 | X ) . Таким образом, мой вопрос сводится к следующему: какова связь между выбором β и p и q ? Это, во-первых, касается двумерного случая, приведенного выше.
Ответы:
Бета - это распределение значений в диапазоне , очень гибкое по своей форме, поэтому практически для любого унимодального эмпирического распределения значений в ( 0 , 1 ) можно легко найти параметры такого бета-распределения, которое «напоминает» форму распределения.(0,1) (0,1)
Обратите внимание, что логистическая регрессия предоставляет вам условные вероятности , в то время как на вашем графике вы представляете нам предельное распределение прогнозируемых вероятностей. Это две разные вещи для разговора.Pr(Y=1∣X)
Не существует прямой связи между параметрами логистической регрессии и параметрами бета-распределения при рассмотрении распределения прогнозов из модели логистической регрессии. Ниже вы можете увидеть данные, смоделированные с использованием нормального, экспоненциального и равномерного распределения, преобразованного с использованием логистической функции. Помимо использования точно таких же параметров логистической регрессии (то есть ), распределения прогнозируемых вероятностей очень разные. Таким образом, распределение предсказанных вероятностей зависит не только от параметров логистической регрессии, но также от распределений X , и между ними нет простой связи.β0=0,β1=1 X
Поскольку бета является распределением значений в , то ее нельзя использовать для моделирования двоичных данных, как это делает логистическая регрессия. Он может быть использован для моделирования вероятностей , таким образом, мы используем бета-регрессию (см. Также здесь и здесь ). Поэтому, если вас интересует, как ведут себя вероятности (понимаемые как случайные величины), вы можете использовать бета-регрессию для этой цели.(0,1)
источник
Логистическая регрессия является частным случаем Обобщенной Линейной Модели (GLM). В этом конкретном случае двоичных данных логистическая функция является канонической функцией связи, которая превращает имеющуюся нелинейную регрессионную задачу в линейную задачу. GLM являются в некоторой степени особыми в том смысле, что они применимы только к распределениям в семействе экспонент (таких как биномиальное распределение).
В байесовской оценке бета-распределение является сопряженным до биномиального распределения, что означает, что байесовское обновление до бета-версии, с биномиальными наблюдениями, приведет к бета-апостериорному. Таким образом, если у вас есть счетчики для наблюдений бинарных данных, вы можете получить аналитическую байесовскую оценку параметров биномиального распределения, используя предварительную бета-версию.
Таким образом, в соответствии с тем, что было сказано другими, я не думаю, что существует прямая связь, но как бета-распределение, так и логистическая регрессия тесно связаны с оценкой параметров чего-то, что следует за биномиальным распределением.
источник
Может быть, нет прямой связи? Распределение в значительной степени зависит от вашего моделирования X . Если вы смоделировали X с N ( 0 , 1 ) , exp ( - X β ) будет иметь логнормальное распределение с μ = - 1, учитывая β 0 = β 1 = 1 . Распределение P ( A = 1 | XP(A=1|X) X X N(0,1) exp(−Xβ) μ=−1 β0=β1=1 тогда можно найти явно: при cdf F ( x ) = 1 - Φ [ ln ( 1P(A=1|X) обратный cdfQ(x)=1
Вы можете проверить результаты, приведенные выше в R :
источник