Смещение оценок максимального правдоподобия для логистической регрессии

Я хотел бы понять несколько фактов о максимальных вероятностных оценках (MLE) для логистических регрессий.

Правда ли, что в целом MLE для логистической регрессии является предвзятой? Я бы сказал "да". Я знаю, например, что размер выборки связан с асимптотическим смещением MLE.

Знаете ли вы какие-нибудь элементарные примеры этого явления?
Если MLE смещен, правда ли, что ковариационная матрица MLE является обратной к гессиану функции максимального правдоподобия?

редактировать : я встречал эту формулу довольно часто и без каких-либо доказательств; это кажется совершенно произвольным выбором для меня.

logistic maximum-likelihood unbiased-estimator bias Avitus
источник

$T$

Pr (Y_{i} = 1 ∣ T_{i} = 1) = Λ (α + β T_{i})

$\Pr(Y_i=1\mid T_i=1) = \Lambda (\alpha + \beta T_i)$

Λ

$\Lambda$

Λ (u) = {[1 + \exp {- u}]}^{- 1}

$\Lambda(u) = \left[1+\exp\{-u\}\right]^{-1}$

В форме логита мы имеем

\ln (\frac{Pr (Y_{i} = 1 ∣ T_{i} = 1)}{1 - Pr (Y_{i} = 1 ∣ T_{i} = 1)}) = α + β T_{i}

$\ln \left(\frac{\Pr(Y_i=1\mid T_i=1)}{1-\Pr(Y_i=1\mid T_i=1)}\right) = \alpha + \beta T_i$

У вас есть образец размера . Обозначим количество наблюдений, где и тех, где , и . Рассмотрим следующие оценочные условные вероятности: $n$ $n_1$ $T_i=1$ $n_0$ $T_i=0$ $n_1+n_0=n$

\hat{Pr} (Y = 1 ∣ T = 1) \equiv {\hat{P}}_{1 | 1} = \frac{1}{n_{1}} \sum_{T_{i} = 1} y_{i}

$\hat \Pr(Y=1\mid T=1)\equiv \hat P_{1|1} = \frac 1{n_1}\sum_{T_i=1}y_i$

\hat{Pr} (Y = 1 ∣ T = 0) \equiv {\hat{P}}_{1 | 0} = \frac{1}{n_{0}} \sum_{T_{i} = 0} y_{i}

$\hat \Pr(Y=1\mid T=0)\equiv \hat P_{1|0} = \frac 1{n_0}\sum_{T_i=0}y_i$

Тогда эта очень базовая модель предоставляет решения для замкнутой формы для оценки ML:

\hat{α} = \ln (\frac{{\hat{P}}_{1 | 0}}{1 - {\hat{P}}_{1 | 0}}), \hat{β} = \ln (\frac{{\hat{P}}_{1 | 1}}{1 - {\hat{P}}_{1 | 1}}) - \ln (\frac{{\hat{P}}_{1 | 0}}{1 - {\hat{P}}_{1 | 0}})

$\hat \alpha = \ln\left(\frac{\hat P_{1|0}}{1-\hat P_{1|0}}\right),\qquad \hat \beta = \ln\left(\frac{\hat P_{1|1}}{1-\hat P_{1|1}}\right)-\ln\left(\frac{\hat P_{1|0}}{1-\hat P_{1|0}}\right)$

BIAS

Хотя и являются несмещенными оценщиками соответствующих вероятностей, MLE смещены, поскольку нелинейная логарифмическая функция мешает - представьте, что происходит с более сложными моделями с более высокой степенью нелинейности. $\hat P_{1|1}$ $\hat P_{1|0}$

Но асимптотически смещение исчезает, так как оценки вероятности непротиворечивы. Вставляя непосредственно оператор в ожидаемое значение и логарифм, мы имеем $\lim$

lim_{n \to \infty} E [\hat{α}] = E [\ln (lim_{n \to \infty} \frac{{\hat{P}}_{1 | 0}}{1 - {\hat{P}}_{1 | 0}})] = E [\ln (\frac{P_{1 | 0}}{1 - P_{1 | 0}})] = α

$\lim_{n\rightarrow \infty}E[\hat \alpha] = E\left[\ln\left(\lim_{n\rightarrow \infty}\frac{\hat P_{1|0}}{1-\hat P_{1|0}}\right)\right] = E\left[\ln\left(\frac{P_{1|0}}{1-P_{1|0}}\right)\right] =\alpha$

и аналогично для . $\beta$

ВАРИАНТНО-КОВАРЯНСКАЯ МАТРИЦА MLE
В приведенном выше простом случае, который предоставляет выражения для замкнутой формы для оценки, можно, по крайней мере, в принципе, продолжить и получить точное распределение конечной выборки, а затем вычислить точную матрицу дисперсии-ковариации конечной выборки , Но в целом MLE не имеет решения в замкнутой форме. Затем мы прибегаем к непротиворечивой оценке асимптотической дисперсионно-ковариационной матрицы, которая действительно является (отрицательной) инверсией гессиана логарифмической функции правдоподобия выборки, вычисленной в MLE. И здесь вообще нет «произвольного выбора», но это вытекает из асимптотической теории и асимптотических свойств MLE (согласованности и асимптотической нормальности), что говорит нам, что для , $\theta_0 = (\alpha, \beta)$

\sqrt{n} (\hat{θ} - θ_{0}) \to_{d} N (0, - (E [H])^{- 1})

${\sqrt n}(\hat \theta-\theta_0)\rightarrow_d N\left(0, -(E[H])^{-1}\right)$

где - гессиан Приблизительно и для (больших) конечных образцов это приводит нас к $H$

Var (\hat{θ}) \approx - \frac{1}{n} (E [H])^{- 1} \approx - \frac{1}{n} {(\frac{1}{n} \hat{H})}^{- 1} = - {\hat{H}}^{- 1}

$\operatorname{Var}(\hat \theta) \approx -\frac 1n(E[H])^{-1}\approx -\frac 1n\left(\frac 1n\hat H\right)^{-1}=-\hat H^{-1}$

Алекос Пападопулос
источник

Смещение оценок максимального правдоподобия для логистической регрессии

Ответы: