Мы работаем с некоторыми логистическими регрессиями, и мы поняли, что средняя оценочная вероятность всегда равна доле вероятностей в выборке; то есть среднее значение подгонянных значений равно среднему значению по выборке.
Кто-нибудь может объяснить мне причину или дать ссылку, где я могу найти эту демонстрацию?
Ответы:
Поведение, которое вы наблюдаете, является «типичным» случаем в логистической регрессии, но не всегда верно. Это также имеет место в гораздо большей общности (см. Ниже). Это является следствием слияния трех отдельных фактов.
Если что-либо из вышеперечисленного отсутствует, то средние оценочные вероятности, как правило, не будут соответствовать доле из них в выборке.
Однако (почти) все статистическое программное обеспечение использует оценку максимального правдоподобия для таких моделей, поэтому на практике пункты 1 и 2 присутствуют практически всегда, а пункт 3 обычно присутствует, за исключением особых случаев.
Некоторые детали
В типичных рамках логистической регрессии мы наблюдаем результаты независимых биномиальных испытаний с вероятностью . Позвольте y я быть наблюдаемыми ответами. Тогда полная вероятность того, L = п Π я = 1 р у я я ( 1 - р я ) 1 - у я = п Π я = 1 ехр ( у я входе ( р я / ( 1 - р Iпя Yя
И таким образом, лог-правдоподобия
ℓ = п Σ я = 1 у я войти ( р я / ( 1 - р я ) ) + п Σ я = 1 журнал ( 1 - р я )
Теперь у нас есть вектор предикторов для каждого наблюдения, а из факта 1 выше модель логистической регрессии утверждает, что log p iИкся
Симуляция
Общий случай : Как упоминалось выше, свойство того, что средний отклик равен среднему прогнозируемому среднему, имеет гораздо большую общность для класса обобщенных линейных моделей, подходящих по максимальному правдоподобию, с использованием функции канонического связывания и включения перехвата в модель.
Ссылки
Некоторые хорошие ссылки для связанной теории следующие.
источник