Я - эпидемиолог, пытающийся понять GEE, чтобы правильно проанализировать когортное исследование (используя регрессию Пуассона с лог-ссылкой для оценки относительного риска). У меня есть несколько вопросов о «рабочей корреляции», которые я хотел бы прояснить:
(1) Если я проводил повторные измерения в одном и том же человеке, то обычно ли разумнее предполагать заменяемую структуру? (Или авторегрессия, если измерения показывают тренд)? А как насчет независимости - есть ли случаи, когда можно было бы принять независимость для измерений в одном и том же человеке?
(2) Есть ли (достаточно простой) способ оценить правильную структуру путем изучения данных?
(3) Я заметил, что при выборе структуры независимости я получаю те же точечные оценки (но с более низкими стандартными ошибками), что и при выполнении простой регрессии Пуассона (используя R, функцию glm()
и geeglm()
из пакета geepack
). Почему это происходит? Я понимаю, что с GEE вы оцениваете усредненную по населению модель (в отличие от предметной), поэтому вы должны получать одинаковые точечные оценки только в случае линейной регрессии.
(4) Если моя когорта находится в нескольких местах расположения (но одно измерение на человека), я должен выбрать независимость или обменную рабочую корреляцию и почему? Я имею в виду, люди на каждом сайте все еще независимы друг от друга, верно? Так, например, для предметно-ориентированной модели я бы определил сайт как случайный эффект. Однако в случае GEE независимость и взаимозаменяемость дают разные оценки, и я не уверен, какая из них лучше с точки зрения базовых допущений.
(5) Может ли GEE обрабатывать двухуровневую иерархическую кластеризацию, то есть многосайтовую когорту с повторными измерениями на человека? Если да, что я должен указать в качестве переменной кластеризации geeglm()
и какой должна быть рабочая корреляция, если предположить, например, «независимость» для первого уровня (сайт) и «обменную» или «авторегрессию» для второго уровня (отдельный)?
Я понимаю, что это довольно много вопросов, и некоторые из них могут быть довольно простыми, но все же очень трудно для меня (и, возможно, для других новичков?) Понять. Таким образом, любая помощь очень и искренне ценится, и чтобы показать это, я начал щедрость.
(1) Вам, вероятно, понадобится какая-то авторегрессионная структура просто потому, что мы ожидаем, что измерения, взятые дальше друг от друга, будут менее коррелированными, чем те, которые взяты ближе друг к другу. Обмениваемый предположил бы, что они все одинаково коррелированы. Но, как и во всем остальном, это зависит.
(2) Я думаю, что такого рода решение сводится к размышлению о том, как были сгенерированы данные, а не к тому, как они выглядят.
(4) это зависит. Например, дети, гнездящиеся в школах, в большинстве случаев не должны рассматриваться как независимые. Из-за социальных паттернов и т. Д., Если я что-то знаю о ребенке в данной школе, то я, вероятно, знаю хотя бы немного о других детях в школах. Однажды я использовал GEE, чтобы посмотреть на взаимосвязь между различными социальными и экономическими показателями и распространенностью ожирения в когорте новорожденных, где участники гнездились по соседству. Я использовал сменную структуру. Вы можете найти статью здесь и проверить некоторые ссылки, в том числе 2 из эпических журналов.
(5) Очевидно так (например, см. Этот пример ), но я не могу помочь со спецификой R сделать это.
Зегер С.Л., Лян К.Ю., Альберт П.С. Модели для продольных данных: подход обобщенного оценочного уравнения. Биометрия. 1988; 44: 1049-60.
Хаббард А.Е., Ахерн Дж., Флейшер Н., Ван дер Лаан М., Липпман С., Брукнер Т., Сатариано В. В GEE или нет в GEE: сравнение функции оценки и основанных на вероятности методов для оценки связей между районами и здоровьем. Эпидемиология. 2009
Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Статистический анализ коррелированных данных с использованием обобщенных оценочных уравнений: ориентация. Am J Epidemiol. 2003; 157: 364.
источник
(0) Общие комментарии: большинство моделей, которые я вижу в перекрестной проверке, слишком сложны. Упростите, если это вообще возможно. Часто стоит моделировать с GEE и смешанной моделью для сравнения результатов.
(1) Да. Выберите обмен. Мой однозначный ответ основан на наиболее широко рекламируемом преимуществе GEE: устойчивости оценок к сделанным предположениям.
Если вы посмотрите на исследования в своей области, вы должны увидеть, что exch является опцией по умолчанию. Это не значит, что это лучшее, но должно быть первым, чтобы рассмотреть. Консультирование exch будет лучшим советом без подробного знания ваших данных.
(2) Да, существуют подходы, основанные на данных, такие как «QIC». Это пример Stata, но широко принятый в качестве разумного варианта, хотя и очень редко используемый на практике:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Точечные оценки никогда не бывают одинаковыми (если вы не используете корреляционную структуру с независимым индексом), но обычно довольно близки. Вы можете найти много статей, в которых сравниваются оценки модели простых / gee / mixed эффектов, чтобы понять это ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ). Большинство учебников также имеют таблицу или два за это. Для независимой корреляционной структуры вы, по сути, используете пуассоновскую модель с надежными SE. Так что оценки будут точно такими же. SE обычно больше. Но иногда надежные SE меньше (то есть life: google с подробным объяснением, если интересно)
(4) См. (1) и (2) выше.
(5) Нет. Или, лучше сказать, вы можете сделать что-нибудь, если приложите к этому достаточно усилий, но это очень редко стоит усилий.
источник
Вы используете неправильный подход с Gee, чтобы делать то, что вы делаете, потому что вы не знаете структуру, и ваши результаты могут быть смущены. Обратитесь к Джейми Робинсону. Вам нужно использовать долго. TMLE (Марк ван дер Лаан) или, может быть, гы с весом iptw. Неучтение корреляции недооценивает дисперсию. Подумайте только, если бы все повторные измерения были коррелированы на 100%, тогда у вас было бы намного меньше наблюдений (по сути, только n для ваших n субъектов), а меньшее n означает более высокую дисперсию.
источник