У нас есть данные с двоичным результатом и некоторыми ковариатами. Я использовал логистическую регрессию для моделирования данных. Просто простой анализ, ничего необычного. Предполагается, что конечным результатом будет кривая доза-эффект, где мы показываем, как изменяется вероятность для конкретного ковариата. Что-то вроде этого:
Мы получили некоторую критику от внутреннего рецензента (не чисто статистики) за выбор логистической регрессии. Логистическая регрессия предполагает (или определяет), что точка перегиба S-образной кривой на шкале вероятностей составляет 0,5. Он утверждал, что не было бы никаких оснований предполагать, что точка перегиба действительно имела вероятность 0,5, и мы должны выбрать другую модель регрессии, которая позволяет точке перегиба изменяться так, что фактическое положение определяется данными.
Сначала он был застигнут врасплох его аргументом, так как я никогда не думал об этом. У меня не было никаких аргументов, почему было бы оправданным предполагать, что точка перегиба составляет 0,5. После некоторого исследования у меня все еще нет ответа на этот вопрос.
Я столкнулся с 5-параметрической логистической регрессией, для которой точка перегиба является дополнительным параметром, но кажется, что эта модель регрессии обычно используется при получении кривых доза-ответ с непрерывным исходом. Я не уверен, если и как это может быть распространено на двоичные переменные ответа.
Я предполагаю, что мой главный вопрос заключается в том, почему или когда можно предположить, что точка перегиба для логистической регрессии составляет 0,5? Имеет ли это значение? Я никогда не видел, чтобы кто-нибудь подходил к модели логистической регрессии и открыто обсуждал вопрос о точке перегиба. Существуют ли альтернативы для построения кривой доза-ответ, где точка перегиба не обязательно равна 0,5?
Просто для полноты, код R для генерации рисунка выше:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Изменить 1:
Просто чтобы добавить к тому, что сказал Scortchi в одном из комментариев: рецензент действительно утверждал, что биологически может быть более вероятно, что изменение кривизны происходит раньше, чем 0,5. Поэтому его сопротивление против предположения, что точка перегиба составляет 0,5.
Изменить 2:
Как реакция на комментарий Фрэнка Харрелла:
В качестве примера, я изменил свою модель выше, включив в нее квадратичный и кубический член gre
(который в данном примере является «дозой»).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Несмотря на то, что gre
в данном случае, вероятно, не имеет смысла добавлять квадратичный и кубический член, мы видим, что форма кривой доза-ответ изменилась. Действительно, теперь у нас есть две точки перегиба около 0,25 и около 0,7.
Ответы:
Как коснулся @scortchi, рецензент действовал под ложным впечатлением, что невозможно моделировать нелинейные эффекты предикторов на логит-шкале в контексте логистической регрессии. Первоначальная модель была быстрой, чтобы предполагать линейность всех предикторов. Ослабляя предположение о линейности, используя, например, ограниченные кубические сплайны (естественные сплайны), вся форма кривой является гибкой, и точка перегиба больше не является проблемой. Если бы был один предиктор, и если бы он был расширен с использованием сплайна регрессии, можно сказать, что логистическая модель делает только предположения о гладкости и независимости наблюдений.
источник
Мне кажется, что рецензент просто хотел что-то сказать. Прежде чем приступить к рассмотрению таких особенностей спецификации, как подразумеваемая точка перегиба, мы сделали тонну предположений, чтобы прийти к оценочной модели. Все может быть подвергнуто сомнению и обсуждению - использование самой логистической функции является возможной основной целью: кто сказал нам, что условное распределение основного термина ошибки является логистическим? Никто.
Итак, вопрос в том, что означает изменение кривизны? Насколько важным для изучаемого явления в реальном мире может быть момент, когда происходит это изменение кривизны, чтобы мы могли рассмотреть вопрос о том, чтобы сделать его «управляемым данными»? Уходя дальше от принципа скупости?
Вопрос не в том, почему точка перегиба должна быть на уровне 0,5? Но «насколько это может вводить в заблуждение для наших выводов, если его оставить на уровне 0,5?».
источник
В MHO логическая регрессия является разумным выбором для доза-ответ. Конечно, вы можете использовать Probit, log-log, c-log-log link и сравнить качество соответствия (DEV, BIC, CAIC и т. Д.). Но самая простая логит-регрессия дает удобную формальную оценку точки перегиба LD50 = -b0 / b1. Мы помним, что это конкретный момент, для которого мы получаем минимальную неопределенность (ср., LD16, LD84 и любые другие будут иметь более широкий CI, см. «Анализ пробита» Finney, 1947, 1977). По моему опыту, всегда (?) Лучше было использовать логарифм дозы, а затем просто преобразовать 95% -й ДИ в исходную шкалу. Какова природа других ковариат в модели? Я намекаю на возможность использовать мультимодельный подход ... Конечно, сплайны гибкие, но формальные параметры интерпретируются проще!
См. Http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm.
источник
Точка перегиба 0,5 - небольшая часть более крупного вопроса: логистическое уравнение по конструкции симметрично. И в большинстве случаев его моделируемый эффект имеет причину быть симметричным. например, когда один игрок выигрывает, другой проигрывает, или эффект, ответственный за насыщение, является тем же физическим эффектом, который отвечает за начальный рост, и т.д .... Так что, если есть причина, по которой источник поведения с низким Х является тем же источником поскольку правая рука ведет себя по какой-либо другой причине или по другой причине, проблема симметрична, тогда у вас есть свое оправдание.
если нет, возможно, тогда следующая простейшая модель - это обобщенное логистическое уравнение. у него больше параметров, и вы можете добавить ограничение, чтобы они не были свободными параметрами. это, вероятно, более желательно, чем добавленные вами кладжи, потому что они добавляют полки, где первая производная колеблется взад и вперед - такие вещи имеют тенденцию создавать вымышленные ложные точки локального равновесия, если вы пытаетесь оптимизировать некоторое ожидаемое значение этого распределение. обобщенная форма нарушит симметрию, но плавно.
источник