В этом случае вы можете свернуть ваши данные в
где - количество экземпляров для и с . Предположим, что всего существует наблюдений. Sijx=iy=ji,j∈{0,1}n
X∖Y010S00S101S01S11
Sijx=iy=ji,j∈{0,1}n
Если мы подходим к модели (где - наша функция связи), мы ' Вы увидите, что - это логит пропорции успехов, когда а - логит пропорции успехов, когда . Другими словами,
и
г β 0 х я = 0 β 0 + β 1 х я = 1 & beta ; 0 = г ( с 01pi=g−1(xTiβ)=g−1(β0+β11xi=1)gβ^0xi=0β^0+β^1xi=1
β^0=g(S01S00+S01)
β^0+β^1=g(S11S10+S11).
Давайте проверим это R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Таким образом, коэффициенты логистической регрессии - это в точности преобразования пропорций, приходящие из таблицы.
В результате мы, безусловно, можем проанализировать этот набор данных с помощью логистической регрессии, если у нас есть данные, поступающие из ряда случайных величин Бернулли, но оказывается, что они ничем не отличаются от прямого анализа результирующей таблицы сопряженности.
Я хочу прокомментировать, почему это работает с теоретической точки зрения. Когда мы логистическую регрессию, мы используем модель, которая . Затем мы решаем смоделировать среднее значение как преобразование линейного предиктора в или в символы . В нашем случае у нас есть только два уникальных значения , и поэтому есть только два уникальных значения , скажем, и . Из-за нашего предположения о независимости у нас есть
и
Yi|xi∼⊥Bern(pi)xipi=g−1(β0+β1xi)xipip0p1
∑i:xi=0Yi=S01∼Bin(n0,p0)
∑i:xi=1Yi=S11∼Bin(n1,p1).
Обратите внимание, как мы используем тот факт, что , а в свою очередь и , неслучайны: если бы это было не так, то они не обязательно были бы биномиальными.
xin0n1
Это означает, что
S01/n0=S01S00+S01→pp0 and S11/n1=S11S10+S11→pp1.
Ключевое понимание здесь: наши RV Бернулли то время как наши биноминальные RV - , но оба имеют одинаковую вероятность успеха. Вот почему эти пропорции таблицы сопряженности оценивают так же, как логистическая регрессия на уровне наблюдения. Это не просто совпадение с таблицей: это прямое следствие сделанных нами предположений о распределении.Yi|xi=j∼Bern(pj)Sj1∼Bin(nj,pj)