Всегда ли функция logit лучше всего подходит для регрессионного моделирования двоичных данных?

15

Я думал об этой проблеме. Обычная логистическая функция для моделирования двоичных данных: Но является ли функция логита, которая представляет собой S-образную кривую, всегда наилучшей для моделирования данных? Возможно, у вас есть основания полагать, что ваши данные не соответствуют нормальной S-образной кривой, а имеют другой тип кривой с областью(0,1).

log(p1p)=β0+β1X1+β2X2+
(0,1)

Есть ли какие-либо исследования в этом? Может быть, вы можете смоделировать это как пробитную функцию или нечто подобное, но что, если это что-то совсем другое? Может ли это привести к лучшей оценке эффектов? Просто мысль у меня была, и мне интересно, есть ли какие-либо исследования в этом направлении.

лощина
источник
3
возможный дубликат разницы между логитами и пробитами
Макро
2
@ Макро Я не думаю, что это точная копия. Этот вопрос касается только логита и пробита; этот просит и других альтернатив.
Питер Флом - Восстановить Монику
Я голосую, чтобы оставить это открытым. Основное отличие, которое я вижу, состоит в том, что этот вопрос требует исследования в области статистики на тему различных возможных функций связи. Это небольшая разница, но этого может быть достаточно. @ Глен, вы можете просмотреть другой вопрос, если вы его еще не видели. В своем ответе я говорю о разных возможных ссылках. Если вы думаете, что Q не очень отличается, пометьте его, и моды могут закрыть его; если вы можете придумать способ сделать различие между тем, о чем вы спрашиваете, и чтобы Q было более четким, вы можете изменить его.
gung - Восстановить Монику
Я знаю, что это не является точной копией вопроса «логит против пробита», но я подумал, что ответ Ганга, который выходит за рамки того, что было задано в связанном вопросе, касается большей части того, что было задано здесь, поэтому я закрыл его как дубликат. Возможно, есть и другие тесно связанные темы, но это первое, что пришло в голову.
Макро
Спасибо за комментарии. Я считаю, что мой вопрос отличается от предыдущего вопроса. Я очень хорошо знаком с преобразованиями probit и log-log, и обсуждение предыдущего вопроса было для меня очень информативным. Однако меня интересуют другие функции связи (возможно, непараметрические?), Которые возможны в ситуации, когда вы можете или не можете знать, что кривая вероятности следует другому распределению. Я думаю, что когда взаимодействие происходит между ковариатами, это может сыграть важную роль. @ Дэвид Дж. Харрис, ответ также полезен ...
Глен

Ответы:

15

Люди используют всевозможные функции, чтобы сохранить свои данные между 0 и 1. Логические шансы естественным образом выпадают из математики, когда вы выводите модель (это называется «канонической функцией связи»), но вы абсолютно свободны экспериментировать с другие альтернативы.

Как упоминал Макрос в своем комментарии к вашему вопросу, один из распространенных вариантов - это пробитная модель , в которой вместо логистической функции используется квантильная функция гауссиана. Я также слышал хорошие вещи об использовании функции квантиля распределения Стьюдента, хотя никогда не пробовал.T

TTT7

Надеюсь это поможет.

Отредактировано, чтобы добавить : Обсуждение, с которым связан @Macro, действительно превосходно. Я настоятельно рекомендую прочитать его, если вы заинтересованы в более подробной информации.

Дэвид Дж. Харрис
источник
Вопрос, в частности, касается «двоичных данных», а не данных от 0 до 1. Пробная модель не имеет теоретического обоснования в случае двоичных данных.
Нил Дж
3
@NeilG, одна из причин использования пробитной модели заключается в том, что она предоставляет удобный способ моделирования многомерных двоичных данных (например, со смешанной моделью) в качестве пороговых нормалей. В этом случае корреляционная матрица базовых переменных является статистически идентифицируемой, тогда как в логистическом случае это не так. Там немного больше обсуждения здесь .
Макро
@Macro: О, я вижу. Это очень интересно, спасибо.
Нил Дж
@ Дэвид Дж. Харрис: Вы имеете в виду квинтиль (или, может быть, квантиль имеет то же значение), то есть, разбиваете распределение на куски пятых: 20%, 40%, .., 100%?
MSIS
1
@MSIS квинтиль делится на пятые, процентиль делится на сотые, а квартиль делится на произвольные единицы. См. En.wikipedia.org/wiki/Quantile#Specialized_quantiles
Дэвид Дж. Харрис
11

Я не вижу причины, априори, почему подходящей функцией связи для данного набора данных должен быть логит (хотя в целом юниверс кажется нам довольно добрым). Я не знаю, действительно ли это то, что вы ищете, но вот некоторые статьи, в которых обсуждаются более экзотические функции ссылок:

Раскрытие: я плохо знаю этот материал. Я пытался поболтать с Cauchit и Scobit пару лет назад, но мой код продолжал падать (возможно, потому что я не очень хороший программист), и это не имело значения для проекта, над которым я работал, поэтому я отбросил его ,

Икс

Gung - Восстановить Монику
источник
4

Лучшая стратегия - моделировать данные в свете происходящего (не удивительно!)

  • Модели Probit начинаются с исследований LD50 - вам нужна доза инсектицида, которая убивает половину ошибок. Двоичный ответ - является ли ошибка или умирает (в данной дозе). Ошибки, которые восприимчивы к одной дозе, также будут восприимчивы и к более низким дозам, и здесь возникает идея моделирования кумулятивного нормального значения.
  • Если бинарные наблюдения объединяются в кластеры, вы можете использовать бета-биномиальную модель. Бен Болкер имеет хорошее введение в документацию своего пакета bbmle (в R), который реализует это в простых случаях. Эти модели позволяют лучше контролировать изменение данных, чем то, что вы получаете в биномиальном распределении.
  • Многомерные двоичные данные - сортировка, которая сворачивается в многомерные таблицы непредвиденных обстоятельств - могут быть проанализированы с использованием лог-линейной модели. Функция ссылки - это журнал, а не шансы журнала. Некоторые люди называют это регрессией Пуассона.

Вероятно, нет исследований по этим моделям как таковым, хотя было проведено множество исследований ни по одной из этих моделей, и по сравнению между ними, и по различным способам их оценки. В литературе вы обнаружите, что какое-то время происходит много активности, так как исследователи рассматривают ряд вариантов для определенного класса проблем, а затем один из методов становится превосходным.

Placidia
источник
+1 для бета-бинома. Это отличный инструмент, чтобы иметь в своем наборе инструментов.
Дэвид Дж. Харрис