Два связанных вопроса от меня. У меня есть фрейм данных, который содержит количество пациентов в одном столбце (от 10 до 17 пациентов) и 0 и 1, показывающие, произошел ли инцидент в тот день. Я использую биномиальную модель, чтобы регрессировать вероятность инцидента на количество пациентов. Тем не менее, я хотел бы учесть тот факт, что когда будет больше пациентов, неизбежно будет больше инцидентов, потому что общее количество времени пациента в палате в этот день выше.
Поэтому я использую смещенную биномиальную модель, подобную этой (R-код):
glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata)
Мои вопросы:
Можно ли прогнозировать одинаковые переменные и в смещении? Я хочу частично отразить тоническое увеличение вероятности инцидента и посмотреть, осталось ли что-нибудь, по сути. Это имеет смысл для меня, но я немного осторожен на случай, если я ошибаюсь.
Правильно ли указано смещение? Я знаю, что в моделях Пуассона это будет читать
offset=log(Numbers)
Я не знаю, есть ли здесь эквивалент, и я не могу найти какие-либо биномиальные смещения в Google (главная проблема в том, что я продолжаю получать отрицательный бином, что, конечно, бесполезно).
источник
Ответы:
Если вас интересует вероятность инцидента с учетом N дней пребывания пациентов в палате, то вам нужна модель, например:
смещение представляет испытания,
incident
равное 0 или 1, и вероятность инцидента постоянна (нет разнородности в тенденции генерировать инциденты), и пациенты не взаимодействуют, чтобы вызвать инциденты (без заражения). В качестве альтернативы, если вероятность инцидента мала, что он для вас (или вы установили пороговое значение для количества инцидентов, не упомянув его нам), то вы можете предпочесть формулировку Пуассонагде применяются те же предположения. Смещение зарегистрировано, потому что количество пациентов в палате имеет пропорциональный / мультипликативный эффект.
Если остановиться на второй модели, возможно, вы думаете, что произошло больше инцидентов, чем можно было бы ожидать, просто из-за увеличения числа пациентов. То есть, возможно, пациенты взаимодействуют или неоднородны. Так ты попробуй
Если коэффициент on
log.patients.on.ward
значительно отличается от 1, в котором он был зафиксированmod2
, то что-то может действительно не соответствовать вашим предположениям об отсутствии гетерогенности и отсутствии заразы. И хотя вы, конечно, не можете отличить эти два (ни один из них от других отсутствующих переменных), теперь у вас есть оценка того, насколько увеличение числа находящихся в отделении пациентов увеличивает вероятность / вероятность инцидентов сверх того, что вы ожидать от случая. В пространстве параметров это1-coef(mod3)[2]
с интервалом, полученным изconfint
.В качестве альтернативы вы можете просто работать с количеством бревен и его коэффициентом напрямую. Если вы просто хотите предсказать вероятность инцидента, используя количество пациентов в палате, то эта модель будет простым способом сделать это.
Вопросы
Можно ли иметь зависимые переменные в вашем смещении? Это звучит как очень плохая идея для меня, но я не вижу в этом необходимости.
Смещение в моделях пуассоновской регрессии
exposure
действительно естьlog(exposure)
. Возможно, сбивает с толку использованиеoffset
в биномиальных регрессионных моделях R в основном способ указать количество испытаний. Его всегда можно заменить зависимой переменной, определенной какcbind(incidents, patients.on.ward-incidents)
и без смещения. Подумайте об этом так: в модели Пуассона он входит с правой стороны за функцией логарифмической ссылки, а в биномиальной модели - с левой стороны перед функцией логит-линка.источник
Смещения в пуассоновских регрессиях
Давайте начнем с рассмотрения того, почему мы используем смещение в регрессии Пуассона. Часто мы хотим из-за этого контролировать экспозицию. Пусть будет базовой скоростью на единицу экспозиции, а t будет временем экспозиции в тех же единицах. Ожидаемое количество событий будет λ × t .λ T λ × t
В модели GLM мы моделируем ожидаемое значение, используя функцию связи , то естьграмм
где - продолжительность воздействия для индивидуума i, а x i - ковариатное значение для индивидуума i . Многоточие просто указывает на дополнительные условия регрессии, которые мы можем захотеть добавить.ti i xi i
Мы можем упростить упрощение вышеприведенного выражения
является просто «смещение» добавляется к регрессии Пуассона , как это не является продуктом какой - либо из параметров модели , которые мы будем оценивающих.log(ti)
Биноминальная регрессия
В биномиальной регрессии, в которой обычно используется ссылка logit, то есть:
В результате мы не можем использовать смещение в этом случае.
источник
Этот ответ состоит из двух частей: первая - прямой ответ на вопрос, а вторая - комментарий к модели, которую вы предлагаете.
Первая часть относится к использованию
Numbers
в качестве смещения наряду с наличием его на правой части уравнения. Эффект от этого будет просто вычитать 1 из оцененного коэффициентаNumbers
, тем самым обращая вспять эффект смещения, и иначе не изменит результаты. Следующий пример, с удалением нескольких строк несущественного вывода, демонстрирует это:Обратите внимание, что все одинаково, за исключением коэффициента чисел и нулевого отклонения (и t-статистики, потому что она по-прежнему проверяется на 0 вместо -1).
Вторая часть относится к модели, которую вы строите. Поскольку инциденты записываются не как количество инцидентов в день, а в том, были ли какие- либо инциденты в день, вероятность соблюдения 1 в деньT является 1 - ( 1 - рT)NT , где NT количество пациентов в день T и пT вероятность инцидента на пациента в день T , Обычная функция связи, logit, будет параметризовать это какжурнал( 1 - ( 1 - рT)NT) / NTжурнал( 1 - рT) , Это указывает на то, что связь между вероятностью наблюдения 1 в деньT и NT не может быть хорошо смоделирован линейной функцией на шкале логита. (Это может иметь место в любом случае, так как можно ожидать некоторый грубый «порог», ниже которого качество обслуживания пациентов в порядке, но выше которого качество ухода за пациентами быстро падает.) Изменение определения вероятностей с целью сдвигаNT в знаменателе вместо числителя по-прежнему оставляет вас с этой неловкой экспоненты внутри журнала.
Можно также подозревать, что вероятность для каждого пациента варьируется от пациента к пациенту, что приведет к более сложной иерархической модели, но я не буду вдаваться в подробности.
В любом случае, учитывая этот и ограниченный диапазон числа пациентов, которых вы наблюдаете, вместо того, чтобы использовать модель, которая является линейной по шкале логита, было бы лучше быть непараметрическим в отношении отношений и сгруппировать число пациентов в три или четыре группы, например 10-11, 12-13, 14-15 и 16-17, создают фиктивные переменные для этих групп, а затем запускают логистическую регрессию с фиктивными переменными справа. Это позволит лучше улавливать нелинейные отношения, такие как «система перегружена примерно у 16 пациентов, и инциденты начинают значительно увеличиваться». Если бы у вас был гораздо более широкий круг пациентов, я бы предложил обобщенную аддитивную модель, например, «gam» из пакета «mgcv».
источник
Кажется, проще всего указать лог-ссылку и сохранить смещение, как для модели Пуассона.
источник