В чем разница между моделью GLM (логистическая регрессия) с бинарной переменной отклика, которая включает субъект и время в качестве ковариат, и аналогичной моделью GEE, которая учитывает корреляцию между измерениями в нескольких временных точках?
Мой GLM выглядит так:
Y(binary) ~ A + B1X1(subject id) + B2X2(time)
+ B3X3(interesting continuous covariate)
с функцией связи логит.
Я ищу простое (нацеленное на социологов) объяснение того, как и почему время трактуется по-разному в двух моделях и каковы будут последствия для интерпретации.
Ответы:
Там может быть лучший и более подробный ответ, но я могу дать вам несколько простых, быстрых мыслей. Похоже, что вы говорите об использовании Обобщенной Линейной Модели (например, типичной логистической регрессии) для подгонки под данные, собранные от некоторых субъектов в разные моменты времени. На первый взгляд, я вижу две вопиющие проблемы с этим подходом.
Во-первых, эта модель предполагает, что ваши данные независимы с учетом ковариат (т. Е. После учета фиктивного кода для каждого субъекта, сродни индивидуальному члену перехвата и линейной временной тенденции, равной для всех). Это вряд ли может быть правдой. Вместо этого почти наверняка будут автокорреляции, например, два наблюдения одного и того же человека ближе по времени будут более похожими, чем два наблюдения, более отдаленные во времени, даже после учета времени . (Хотя они вполне могут быть независимыми, если вы также включите
subject ID x time
взаимодействие - т. Е. Уникальный временной график для всех - но это усугубит следующую проблему.)Во-вторых, вы собираетесь сжечь огромное количество степеней свободы, оценивая параметр для каждого участника. Скорее всего, у вас останется относительно мало степеней свободы, чтобы попытаться точно оценить интересующие вас параметры (конечно, это зависит от того, сколько измерений вы проводите на человека).
По иронии судьбы первая проблема означает, что ваши доверительные интервалы слишком узки, а вторая означает, что ваши КИ будут намного шире, чем они были бы, если бы вы не потеряли большую часть своих степеней свободы. Однако я бы не стал рассчитывать на то, что эти двое уравновешивают друг друга. Для чего бы это ни стоило, я считаю, что ваши оценки параметров будут беспристрастными (хотя я могу ошибаться здесь).
В этом случае целесообразно использовать обобщенные оценочные уравнения. Когда вы подгоняете модель с помощью GEE, вы указываете корреляционную структуру (например, AR (1)), и может быть вполне разумным, чтобы ваши данные были независимыми как от ковариат, так и от матрицы корреляции, которую вы указали. Кроме того, GEE оценивает среднюю ассоциацию населения, поэтому вам не нужно указывать степень свободы для каждого участника - по сути, вы усредняете их.
Что касается интерпретации, насколько мне известно, она была бы одинаковой в обоих случаях: учитывая, что другие факторы остаются постоянными, изменение в X3 на одну единицу связано с изменением B3 в лог-коэффициентах «успеха» ,
источник