Допустим, у нас есть зависимая переменная с несколькими категориями и набором независимых переменных.
Каковы преимущества полиномиальной логистической регрессии по сравнению с множеством бинарных логистических регрессий (то есть схема «один против отдыха» )? Под набором двоичной логистической регрессии я подразумеваю, что для каждой категории мы строим отдельную модель двоичной логистической регрессии с target = 1, когда Y = y i и 0 в противном случае.
logistic
categorical-data
multinomial
Томек Тарчинский
источник
источник
Ответы:
Если имеет более двух категорий, ваш вопрос о «преимуществе» одной регрессии над другой, вероятно, не имеет смысла, если вы хотите сравнить параметры моделей , потому что модели будут принципиально другими:Y
для каждогоябинарной логистическойрегрессии, иlogP(i)P(not i)=logiti=linear combination i
для каждойкатегорииiвмножественной логистическойрегрессии,rявляется выбранной эталонной категорией (i≠r).logP(i)P(r)=logiti=linear combination i r i≠r
Однако, если ваша цель состоит в том только , чтобы предсказать вероятность каждой категории либо подход оправдан, хотя они могут давать разные оценки вероятности. Формула для оценки вероятности является общей:i
, гдеi,j,…,r- все категории и еслиrбыл выбран в качестве эталонного, егоexp(logP′(i)=exp(logiti)exp(logiti)+exp(logitj)+⋯+exp(logitr) i,j,…,r r . Таким образом, для бинарной логистики эта же формула становится P ′ ( i ) = e x p ( l o g i t i )exp(logit)=1 . Многочленная логистика опирается на (не всегда реалистичное) предположение онезависимости нерелевантных альтернатив, вто время как ряд бинарных логистических предсказаний этого не делает.P′(i)=exp(logiti)exp(logiti)+1
Отдельная тема является то , что технические различия между мультиномиальной и бинарной логистической регрессией в случае , когда является дихотомическим . Будет ли разница в результатах? В большинстве случаев при отсутствии ковариат результаты будут одинаковыми, но все же существуют различия в алгоритмах и параметрах вывода. Позвольте мне процитировать справку SPSS об этой проблеме в SPSS:Y
источник
Из-за названия я предполагаю, что «преимущества множественной логистической регрессии» означают «полиномиальную регрессию». Часто есть преимущества, когда модель подходит одновременно. Эта конкретная ситуация описана в Agresti (Категориальный анализ данных, 2002), стр. 273. В целом (перефразируя Agresti), вы ожидаете, что оценки из совместной модели будут отличаться от стратифицированной модели. Отдельные логистические модели, как правило, имеют более крупные стандартные ошибки, хотя это может быть не так плохо, когда наиболее частый уровень результата установлен в качестве контрольного уровня.
источник