Регрессия Пуассона для оценки относительного риска бинарных исходов

42

Краткое содержание

Почему логистическая регрессия (с коэффициентами вероятности) чаще используется в когортных исследованиях с бинарными исходами, а не с пуассоновской регрессией (с относительными рисками)?

Задний план

Курсы по статистике и эпидемиологии для студентов и аспирантов, по моему опыту, обычно преподают, что логистическая регрессия должна использоваться для моделирования данных с бинарными результатами, а оценки риска представлены как отношения шансов.

Однако регрессия Пуассона (и связанная с ней: квази-Пуассон, отрицательный биномиал и т. Д.) Также может использоваться для моделирования данных с бинарными результатами и с помощью соответствующих методов (например, надежной оценки сэндвич-дисперсии) обеспечивает достоверные оценки риска и уровни достоверности. Например,

Из регрессии Пуассона можно сообщать об относительных рисках, которые, как утверждают некоторые, легче интерпретировать по сравнению с коэффициентами вероятности, особенно для частых исходов, особенно для лиц без значительного опыта в статистике. См. Чжан Дж. И Ю. К.Ф., Каков относительный риск? Метод коррекции отношения шансов в когортных исследованиях общих исходов , JAMA. 1998 18 ноября; 280 (19): 1690-1.

Из чтения медицинской литературы, среди когортных исследований с бинарными исходами, кажется, что все еще гораздо чаще сообщать отношения шансов от логистических регрессий, а не относительные риски от регрессий Пуассона.

Вопросов

Для когортных исследований с бинарными результатами:

  1. Есть ли веские основания сообщать о коэффициентах вероятности от логистических регрессий, а не об относительных рисках от регрессий Пуассона?
  2. Если нет, то можно ли объяснить частоту пуассоновских регрессий с относительными рисками в медицинской литературе главным образом из-за несоответствия между методологической теорией и практикой среди ученых, клиницистов, статистиков и эпидемиологов?
  3. Должны ли промежуточные курсы по статистике и эпидемиологии включать дополнительное обсуждение регрессии Пуассона для бинарных результатов?
  4. Должен ли я поощрять студентов и коллег к рассмотрению регрессии Пуассона над логистической регрессией, когда это уместно?
jthetzel
источник
Если вы хотите относительный риск, почему бы вам не использовать биномиальную регрессию с логической (а не логистической) ссылкой? Отношение средней дисперсии семейства Пуассона не имеет большого смысла, если вы обусловили количество возможных событий на одно наблюдение.
Андрей М
@AndrewM Как бы вы применили биномиальную регрессию со ссылкой на журнал? Положительные значения регрессора будут означать значения вероятности больше 1.
Руфо
[0,1]
@ AndrewM Да, я имею в виду линейный предиктор, спасибо :). Но даже когда вам удастся реализовать модель, я не уверен, что она адекватна. Как я указал в комментарии к первому ответу, если вы меняете 0 на 1 и наоборот на переменную ответа, так как ссылка журнала не симметрична около 0,5, оценки относительных рисков будут другими ( exp(beta_M1) =/= 1/exp(beta_M2)). Это беспокоит меня совсем немного.
Руфо
1
P(Y|X)/P(Y|Xc)P(Y|X)/P(Y|Xc)P(Yc|X)/P(Yc|Xc)

Ответы:

28

Ответ на все четыре ваших вопроса, перед которыми стоит примечание:

В современных исследованиях по эпидемиологии не так часто встречается сообщение о соотношении шансов из логистической регрессии для когортного исследования. Остается регрессионный метод выбора для исследований случай-контроль, но более сложные методы в настоящее время стандартом де - факто для анализа в крупных эпидемиологических журналах , как эпидемиология , AJE или IJE, У них будет большая тенденция появляться в клинических журналах, сообщающих о результатах обсервационных исследований. Также будут некоторые проблемы, потому что регрессию Пуассона можно использовать в двух контекстах: то, на что вы ссылаетесь, где она заменяет модель биномиальной регрессии, и в контексте времени до события, что чрезвычайно характерно для когорты. исследования. Подробнее в ответах на конкретный вопрос:

  1. Для когортного исследования на самом деле нет. Есть несколько крайне специфических случаев, когда, скажем, кусочно-логистическая модель могла быть использована, но это выбросы. Весь смысл когортного исследования заключается в том, что вы можете напрямую измерить относительный риск или множество связанных показателей, и вам не нужно полагаться на отношение шансов. Однако я сделаю два замечания: регрессия Пуассона часто оценивает скорость, а не риск, и, следовательно, оценка эффекта от него часто будет отмечаться как коэффициент коэффициента (в основном, на мой взгляд, вы все еще можете сократить его RR) или коэффициент плотности заболеваемости (IRR или IDR). Поэтому убедитесь, что в своем поиске вы действительно ищете правильные термины: существует множество когортных исследований с использованием методов анализа выживаемости. Для этих исследований регрессия Пуассона делает некоторые предположения, которые являются проблематичными, в частности, что опасность постоянна. Таким образом, гораздо чаще анализировать когортное исследование с использованием моделей пропорциональных рисков Кокса, а не моделей Пуассона, и сообщать о следующем соотношении рисков (ЧСС). Если нажать на название метода «по умолчанию», с помощью которого можно анализировать когорту, я бы сказал, что в эпидемиологии доминирует модель Кокса. У этого есть свои проблемы, и некоторые очень хорошие эпидемиологи хотели бы изменить это,

  2. Есть две вещи, которые я мог бы приписать нечастости - нечастость, которую я не обязательно думаю, существует в той степени, в которой вы предлагаете. Во-первых, да - «эпидемиология» как область не совсем закрыта, и вы получаете огромное количество работ от врачей, социологов и т. Д., А также от эпидемиологов разного статистического происхождения. Логистическая модель обычно преподается, и, по моему опыту, многие исследователи обращаются к знакомому инструменту, а не к лучшему.

    Второе - это вопрос о том, что вы подразумеваете под «когортным» исследованием. Что-то вроде модели Кокса или модели Пуассона требует фактической оценки времени человека. Можно получить когортное исследование, которое следует за несколько закрытой популяцией в течение определенного периода - особенно в ранних примерах «Intro to Epi», где методы выживания, такие как модели Пуассона или Кокса, не так полезны. Логистическая модель можетиспользоваться для оценки отношения шансов, которое при достаточно низкой распространенности заболевания приближается к относительному риску. Другие методы регрессии, которые непосредственно оценивают ее, такие как биномиальная регрессия, имеют проблемы сходимости, которые могут легко расстроить нового ученика. Имейте в виду, что в цитируемых вами работах Зоу используются методы регрессии Пуассона, чтобы обойти проблемы сходимости биномиальной регрессии. Но биномиально подходящие когортные исследования на самом деле представляют собой небольшой кусочек «когортного пирога».

  3. Да. Откровенно говоря, методы анализа выживания должны появиться раньше, чем они часто делают. Моя любимая теория состоит в том, что причина этого не в том, что такие методы, как логистическая регрессия, легче кодировать . Методы, которые легче кодировать, но сопровождаются гораздо большими предостережениями относительно обоснованности их оценок воздействия, рассматриваются как «базовый» стандарт, что является проблемой.

  4. Вы должны поощрять студентов и коллег использовать соответствующий инструмент. В целом для области, я думаю, вам, вероятно, было бы лучше предложить рассмотреть модель Кокса, а не регрессию Пуассона, поскольку большинство рецензентов быстро (и должны) выразить обеспокоенность по поводу предположения о постоянной опасности. Но да, чем раньше вы сможете отвести их от вопроса «Как мне сформулировать мой вопрос в модели логистической регрессии?» тем лучше мы все будем. Но да, если вы смотрите на исследование без времени, студенты должны быть ознакомлены как с биномиальной регрессией, так и с альтернативными подходами, такими как регрессия Пуассона, которые можно использовать в случае проблем сходимости.

фомиты
источник
Когда вы говорите, что у других методов регрессии, которые непосредственно оценивают это [я полагаю, относительный риск], как у биномиальной регрессии, есть проблемы сходимости [...] , как бы вы применили биномиальную регрессию, чтобы она давала вам относительный риск? @AndrewM предлагает ссылку на журнал, но я не понимаю, как бы вы избежали проблемы с оценкой вероятности успеха выше 1.
Руфо
@Rufo Биноминальная модель с лог-ссылкой при запуске в когорте будет оценивать относительный риск. То, что эти модели иногда оценивают вероятности, превышающие 1, действительно является одной из причин, по которым биномиальные модели труднее реализовать, чем идеально. Но мне удалось их использовать - полезно, чтобы ваши данные часто имели вероятности значительно ниже 1, поэтому модель может никогда не столкнуться с проблемой, о которой вы беспокоитесь.
Fomite
p
9

Я также размышляю о распространенности логистических моделей в литературе, когда модель относительного риска была бы более подходящей. Мы, как статистики, слишком хорошо знакомы с соблюдением соглашений или с «выпадающим меню». Это создает гораздо больше проблем, чем решает. Логистическая регрессия преподается как «стандартный готовый инструмент» для анализа бинарных результатов, когда у человека есть тип «да / нет», такой как смерть или инвалидность.

Регресс Пуассона часто преподается как метод анализа подсчетов . Несколько подчеркивается, что такая вероятностная модель работает исключительно хорошо для моделирования результатов 0/1, особенно когда они редки. Тем не менее, логистическая модель также хорошо применяется с редкими исходами: отношение шансов является приблизительно отношением риска, даже с выборкой, зависящей от результата, как в исследованиях типа «случай-контроль». Чего нельзя сказать об относительном риске или моделях Пуассона.

Модель Пуассона также полезна, когда люди могут иметь «результат» более одного раза, и вас может заинтересовать совокупная заболеваемость, такая как вспышка герпеса, госпитализация или рак молочной железы. По этой причине возведенные в степень коэффициенты можно интерпретировать как относительные показатели . Чтобы обозначить разницу между показателями и рисками: если имеется 100 случаев на 1000 человеко-лет, но все 100 случаев произошли в одном человеке, заболеваемость (показатель) по-прежнему составляет 1 случай на 10 человеко-лет. В условиях оказания медицинской помощи вам все равно необходимо вылечить 100 случаев, а вакцинация 80% людей имеет снижение заболеваемости на 80% (априори). Однако риск хотя бы одного исхода составляет 1/1000. Характер результата и вопрос вместе определяют, какая модель является подходящей.

var(y)=E(y)(1E(y))

log(E[Y|X])=β0+β1Xvar(Y)=E[Y](1E[Y])

Между прочим, статья Чжана предоставляет предвзятую оценку логического вывода, основанную на оценке относительного риска, которая не учитывает изменчивость термина перехвата. Вы можете исправить оценку, начав загрузку.

Чтобы ответить на конкретные вопросы:

  1. Если результат редкий, они примерно одинаковы. Если результат является общим, отклонение оценки относительной скорости от Пуассона может быть завышенным, и мы можем предпочесть отношение шансов в качестве предвзятой, но эффективной оценки связи между двоичным исходом и несколькими воздействиями. Я также думаю, что исследования «случай-контроль» оправдывают использование отношения шансов в качестве меры, которая не зависит от выборки, зависящей от результата. Скотт и Уайлд 97 обсуждают методы вокруг этого. Конечно, другие журналы могут не иметь специальных статистических рецензентов.

2,3. Я думаю, что вы обвиняете и предполагаете слишком много о том, что происходит в медицинских обзорах и академиках.

  1. Вы всегда должны поощрять своих учеников использовать соответствующие модели, когда это возможно.

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat

Adamo
источник
2
«Насколько я понимаю, если научный интерес заключается в оценке относительных показателей, существует гибридная модель: регрессия относительного риска, представляющая собой GLM с использованием структуры логистической дисперсии и структуры среднего Пуассона»: также известна как биноминальная регрессия с лог-связью.
Андрей М
2
@ AndrewM Действительно. На самом деле, я думаю, что это предпочтительный язык. Спасибо что подметил это. Я отредактировал вопрос, включив в него ссылку на рабочий документ Томаса Ламли, в котором подчеркивается, что модель Пуассона является «рабочей моделью» в том смысле, что она представляет собой неверное предполагаемое отношение средней дисперсии.
AdamO
Что вы имеете в виду под «если результаты редки, они примерно одинаковы»? Каков максимальный процент «редких» результатов, чтобы использовать ИЛИ вместо ОР для оценки распространенности?
vasili111
2
@ vasili111 это горячо обсуждаемая тема без четкого ответа. В настоящее время вы видите множество критических замечаний людей, делающих «редкие» предположения, когда частота встречаемости не была такой уж редкой, например, более 1/30. А с многовариантными моделями все идет!
AdamO