Имеет ли смысл использовать логистическую регрессию с двоичным результатом и предиктором?

18

У меня есть двоичная переменная результата {0,1} и переменная предиктора {0,1}. Я думаю, что не имеет смысла заниматься логистикой, если я не включу другие переменные и не вычислю соотношение шансов.

С одним бинарным предиктором не будет ли вычисление вероятности достаточным в сравнении с отношением шансов?

keval
источник

Ответы:

26

В этом случае вы можете свернуть ваши данные в где - количество экземпляров для и с . Предположим, что всего существует наблюдений. Sijx=iy=ji,j{0,1}n

XY010S00S011S10S11
Sijx=iy=ji,j{0,1}n

Если мы подходим к модели (где - наша функция связи), мы ' Вы увидите, что - это логит пропорции успехов, когда а - логит пропорции успехов, когда . Другими словами, и г β 0 х я = 0 β 0 + β 1 х я = 1 & beta ; 0 = г ( с 01pi=g1(xiTβ)=g1(β0+β11xi=1)gβ^0xi=0β^0+β^1xi=1

β^0=g(S01S00+S01)
β^0+β^1=g(S11S10+S11).

Давайте проверим это R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Таким образом, коэффициенты логистической регрессии - это в точности преобразования пропорций, приходящие из таблицы.

В результате мы, безусловно, можем проанализировать этот набор данных с помощью логистической регрессии, если у нас есть данные, поступающие из ряда случайных величин Бернулли, но оказывается, что они ничем не отличаются от прямого анализа результирующей таблицы сопряженности.


Я хочу прокомментировать, почему это работает с теоретической точки зрения. Когда мы логистическую регрессию, мы используем модель, которая . Затем мы решаем смоделировать среднее значение как преобразование линейного предиктора в или в символы . В нашем случае у нас есть только два уникальных значения , и поэтому есть только два уникальных значения , скажем, и . Из-за нашего предположения о независимости у нас есть и Yi|xiBern(pi)xipi=g1(β0+β1xi)xipip0p1

i:xi=0Yi=S01Bin(n0,p0)
i:xi=1Yi=S11Bin(n1,p1).
Обратите внимание, как мы используем тот факт, что , а в свою очередь и , неслучайны: если бы это было не так, то они не обязательно были бы биномиальными.xin0n1

Это означает, что

S01/n0=S01S00+S01pp0 and S11/n1=S11S10+S11pp1.

Ключевое понимание здесь: наши RV Бернулли то время как наши биноминальные RV - , но оба имеют одинаковую вероятность успеха. Вот почему эти пропорции таблицы сопряженности оценивают так же, как логистическая регрессия на уровне наблюдения. Это не просто совпадение с таблицей: это прямое следствие сделанных нами предположений о распределении.Yi|xi=jBern(pj)Sj1Bin(nj,pj)

JLD
источник
1

Когда у вас есть более одного предиктора, и все предикторы являются двоичными переменными, вы можете подобрать модель, используя Логическую регрессию [1] (обратите внимание, что это «Логика», а не «Логистика»). Это полезно, когда вы считаете, что эффекты взаимодействия между вашими предикторами заметны. Есть реализация в R ( LogicRegпакет).

[1] Ручинский И., Куперберг С. и Лебланк М. (2003). Логическая регрессия. Журнал вычислительной и графической статистики, 12 (3), 475-511.

horaceT
источник
1
Вопрос конкретно об одном регрессоре, поэтому ваш ответ лучше послужить комментарием.
Ричард Харди