Логистическая регрессия и точка перегиба

11

У нас есть данные с двоичным результатом и некоторыми ковариатами. Я использовал логистическую регрессию для моделирования данных. Просто простой анализ, ничего необычного. Предполагается, что конечным результатом будет кривая доза-эффект, где мы показываем, как изменяется вероятность для конкретного ковариата. Что-то вроде этого:

введите описание изображения здесь

Мы получили некоторую критику от внутреннего рецензента (не чисто статистики) за выбор логистической регрессии. Логистическая регрессия предполагает (или определяет), что точка перегиба S-образной кривой на шкале вероятностей составляет 0,5. Он утверждал, что не было бы никаких оснований предполагать, что точка перегиба действительно имела вероятность 0,5, и мы должны выбрать другую модель регрессии, которая позволяет точке перегиба изменяться так, что фактическое положение определяется данными.

Сначала он был застигнут врасплох его аргументом, так как я никогда не думал об этом. У меня не было никаких аргументов, почему было бы оправданным предполагать, что точка перегиба составляет 0,5. После некоторого исследования у меня все еще нет ответа на этот вопрос.

Я столкнулся с 5-параметрической логистической регрессией, для которой точка перегиба является дополнительным параметром, но кажется, что эта модель регрессии обычно используется при получении кривых доза-ответ с непрерывным исходом. Я не уверен, если и как это может быть распространено на двоичные переменные ответа.

Я предполагаю, что мой главный вопрос заключается в том, почему или когда можно предположить, что точка перегиба для логистической регрессии составляет 0,5? Имеет ли это значение? Я никогда не видел, чтобы кто-нибудь подходил к модели логистической регрессии и открыто обсуждал вопрос о точке перегиба. Существуют ли альтернативы для построения кривой доза-ответ, где точка перегиба не обязательно равна 0,5?

Просто для полноты, код R для генерации рисунка выше:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

Изменить 1:

Просто чтобы добавить к тому, что сказал Scortchi в одном из комментариев: рецензент действительно утверждал, что биологически может быть более вероятно, что изменение кривизны происходит раньше, чем 0,5. Поэтому его сопротивление против предположения, что точка перегиба составляет 0,5.

Изменить 2:

Как реакция на комментарий Фрэнка Харрелла:

В качестве примера, я изменил свою модель выше, включив в нее квадратичный и кубический член gre(который в данном примере является «дозой»).

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

введите описание изображения здесь

Несмотря на то, что greв данном случае, вероятно, не имеет смысла добавлять квадратичный и кубический член, мы видим, что форма кривой доза-ответ изменилась. Действительно, теперь у нас есть две точки перегиба около 0,25 и около 0,7.

Фрэнсис
источник
2
Разве это не то же самое, что просить исследовать нелинейные отношения предикторов к логарифму ответа?
Scortchi - Восстановить Монику

Ответы:

8

Как коснулся @scortchi, рецензент действовал под ложным впечатлением, что невозможно моделировать нелинейные эффекты предикторов на логит-шкале в контексте логистической регрессии. Первоначальная модель была быстрой, чтобы предполагать линейность всех предикторов. Ослабляя предположение о линейности, используя, например, ограниченные кубические сплайны (естественные сплайны), вся форма кривой является гибкой, и точка перегиба больше не является проблемой. Если бы был один предиктор, и если бы он был расширен с использованием сплайна регрессии, можно сказать, что логистическая модель делает только предположения о гладкости и независимости наблюдений.

Фрэнк Харрелл
источник
Я должен признать, что я не очень знаком с регрессией сплайна. Как бы я назад делал это вместе с логистической регрессией (в R). Я изменил свой исходный пост (изменить 2), чтобы включить полиномиальные термины в предиктор. Могу ли я использовать это как альтернативу сглаживанию сплайнов. Конечно, у меня нет такой гибкости, как у сплайнов.
Фрэнсис
1
@Franco: собственные стратегии регрессионного моделирования Фрэнка Харрелла - книга , веб-сайт , пакет R - должны помочь вам. Краткое обсуждение некоторых преимуществ сплайнов регрессии здесь ; но вы правы, конечно, что полиномы являются альтернативой.
Scortchi - Восстановить Монику
4

Мне кажется, что рецензент просто хотел что-то сказать. Прежде чем приступить к рассмотрению таких особенностей спецификации, как подразумеваемая точка перегиба, мы сделали тонну предположений, чтобы прийти к оценочной модели. Все может быть подвергнуто сомнению и обсуждению - использование самой логистической функции является возможной основной целью: кто сказал нам, что условное распределение основного термина ошибки является логистическим? Никто.

Итак, вопрос в том, что означает изменение кривизны? Насколько важным для изучаемого явления в реальном мире может быть момент, когда происходит это изменение кривизны, чтобы мы могли рассмотреть вопрос о том, чтобы сделать его «управляемым данными»? Уходя дальше от принципа скупости?

Вопрос не в том, почему точка перегиба должна быть на уровне 0,5? Но «насколько это может вводить в заблуждение для наших выводов, если его оставить на уровне 0,5?».

Алекос Пападопулос
источник
2
Это кажется немного благотворительным. Мы не знаем, что у рецензента не было веской причины оспаривать это предположение, а не у других, которые он мог оспорить. Оставьте в стороне странный способ обозначить его с точки зрения точек перегиба и возможного неправильного представления о логистической регрессии, и он в основном спрашивает, почему модель позволяет кривой смещаться и растягиваться, но не изгибаться, что вполне может заслуживать ответа.
Scortchi - Восстановить Монику
@ Scortchi "странный способ выразить это" ... "возможное заблуждение о логистической регрессии" ... Если это то, что нужно для рационализации критики рецензента, ему (а) не следовало бы рецензировать статью в конце концов.
Алекос Пападопулос
1
Как и в случае с @Scortchi, я нахожу это слишком резким. Многие из наиболее активных людей здесь имеют опыт работы в различных науках, а не в основной статистике. Быть статистиком, чистым или нет, не является ни необходимым, ни достаточным, чтобы дать хороший совет (хотя почти во всех случаях это явно поможет).
Ник Кокс
@ Ник Кокс Я принимаю "резкость", и я просто удалил свое последнее предложение, как признак консенсуса. Моя точка зрения заключается в том, что общие вопросы, касающиеся допущений модели, не имеют значения - модели всегда ложны. Таким образом, если вероятность изменения кривизны так или иначе критична для изучаемого явления в реальном мире, то рецензент действительно был прав, когда спрашивал, что эта точка становится управляемой данными. Но если рецензент только что прокомментировал «почему при p = 0,5, а не в другом месте?», Этот комментарий не является конструктивным.
Алекос Пападопулос
2
Спасибо за это. Я согласен с вашей общей позицией: (а) обсуждение достоинств различных подходов и (б) обсуждение того, как мы должны обсуждать, и то, и другое - честная игра. Комментарии к отдельным лицам или даже группам, напротив, обычно не помогают (хотя я тоже иногда пересекаю черту в раздражении ...).
Ник Кокс
0

В MHO логическая регрессия является разумным выбором для доза-ответ. Конечно, вы можете использовать Probit, log-log, c-log-log link и сравнить качество соответствия (DEV, BIC, CAIC и т. Д.). Но самая простая логит-регрессия дает удобную формальную оценку точки перегиба LD50 = -b0 / b1. Мы помним, что это конкретный момент, для которого мы получаем минимальную неопределенность (ср., LD16, LD84 и любые другие будут иметь более широкий CI, см. «Анализ пробита» Finney, 1947, 1977). По моему опыту, всегда (?) Лучше было использовать логарифм дозы, а затем просто преобразовать 95% -й ДИ в исходную шкалу. Какова природа других ковариат в модели? Я намекаю на возможность использовать мультимодельный подход ... Конечно, сплайны гибкие, но формальные параметры интерпретируются проще!

См. Http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm.

Иван Кшнясев
источник
0

Точка перегиба 0,5 - небольшая часть более крупного вопроса: логистическое уравнение по конструкции симметрично. И в большинстве случаев его моделируемый эффект имеет причину быть симметричным. например, когда один игрок выигрывает, другой проигрывает, или эффект, ответственный за насыщение, является тем же физическим эффектом, который отвечает за начальный рост, и т.д .... Так что, если есть причина, по которой источник поведения с низким Х является тем же источником поскольку правая рука ведет себя по какой-либо другой причине или по другой причине, проблема симметрична, тогда у вас есть свое оправдание.

если нет, возможно, тогда следующая простейшая модель - это обобщенное логистическое уравнение. у него больше параметров, и вы можете добавить ограничение, чтобы они не были свободными параметрами. это, вероятно, более желательно, чем добавленные вами кладжи, потому что они добавляют полки, где первая производная колеблется взад и вперед - такие вещи имеют тенденцию создавать вымышленные ложные точки локального равновесия, если вы пытаетесь оптимизировать некоторое ожидаемое значение этого распределение. обобщенная форма нарушит симметрию, но плавно.

Чарли Штраус
источник