У меня есть модель выживания с пациентами, размещенными в больницах, которая включает случайный эффект для больниц. Случайный эффект имеет гамма-распределение, и я пытаюсь сообщить о «значимости» этого термина в легко понятной шкале.
Я нашел следующие ссылки, в которых используется Медианное соотношение рисков (немного похожее на Медианный коэффициент вероятности), и рассчитал это.
Бенгтссон Т, Дрибэ М: Исторические методы 43:15, 2010
Однако теперь я хочу сообщить о неопределенности, связанной с этой оценкой, с помощью начальной загрузки. Данные являются данными выживания, и, следовательно, существует несколько наблюдений на пациента и несколько пациентов на больницу. Кажется очевидным, что мне нужно объединить наблюдения пациентов при повторной выборке. Но я не знаю, стоит ли мне кластеризовать больницы тоже (т. Е. Пересматривать больницы, а не пациентов?
Мне интересно, зависит ли ответ от параметра, представляющего интерес, и поэтому был бы другим, если бы целью было что-то, что было актуально на уровне пациента, а не на уровне больницы?
Я перечислил код stata ниже на случай, если это поможет.
cap program drop est_mhr
program define est_mhr, rclass
stcox patient_var1 patient_var2 ///
, shared(hospital) ///
noshow
local twoinvtheta2 = 2 / (e(theta)^2)
local mhr = exp(sqrt(2*e(theta))*invF(`twoinvtheta2',`twoinvtheta2',0.75))
return scalar mhr = `mhr'
end
bootstrap r(mhr), reps(50) cluster(hospital): est_mhr
Ответ, по-видимому, заключается в том, что процесс повторной выборки должен учитывать структуру данных. Здесь есть хорошее объяснение (вместе с некоторым R-кодом для его реализации).
http://biostat.mc.vanderbilt.edu/wiki/Main/HowToBootstrapCorrelatedData
Благодаря указателю от Статистической Консалтинговой Группы UCLA .
Я написал более быструю (но менее гибкую) версию фрагмента кода, на которую ссылается выше - проверьте здесь обновления и подробности.
источник