Предположим, я подгоняю биномиальную регрессию и получаю точечные оценки и дисперсионно-ковариационную матрицу коэффициентов регрессии. Это позволит мне получить CI для ожидаемой доли успехов в будущем эксперименте, , но мне нужен CI для наблюдаемой пропорции. Было опубликовано несколько связанных ответов, в том числе симуляция (предположим, я не хочу этого делать) и ссылка на Кришнамурти и др. (Которая не совсем отвечает на мой вопрос).
Я рассуждаю так: если мы используем только биномиальную модель, мы вынуждены предположить, что выбрано из нормального распределения (с соответствующим индексом Уолда) и, следовательно, невозможно получить CI для наблюдаемой пропорции в замкнутой форме. Если мы предположим, что p выбрано из бета-распределения, то все будет намного проще, потому что число успехов будет следовать бета-биномиальному распределению. Мы должны будем предположить, что нет никакой неопределенности в оцененных параметрах бета, α и β .
Есть три вопроса:
1) Теоретический: нормально ли использовать только точечные оценки бета-параметров? Я знаю, что для создания КИ для будущего наблюдения в множественной линейной регрессии
они делают это по отношению к ошибке дисперсии, . Я понимаю (поправьте меня, если я ошибаюсь), что оправдание состоит в том, что на практике σ 2 оценивается с гораздо большей точностью, чем коэффициенты регрессии, и мы не добьемся большого успеха, пытаясь учесть неопределенность σ 2 . Применимо ли подобное обоснование к оцененным бета-параметрам α и β ?
2) Какой пакет лучше (R: gamlss-bb, betareg, aod? У меня также есть доступ к SAS).
3) Учитывая предполагаемые бета-параметры, существует ли (приблизительный) ярлык для получения квантилей (2,5%, 97,5%) для подсчета будущих успехов или, что еще лучше, для доли будущих успехов при бета-биномиальном распределении.
Ответы:
Я рассмотрю все 3 части вопроса.
Есть две взаимосвязанные проблемы, во-первых, метод, который вы используете, чтобы соответствовать модели регрессии в этом случае. Во-вторых, как интервал оценок от ваших оценок, чтобы предсказать новую оценку.
если ваши переменные ответа распределены биномиально, вы обычно используете либо логистическую регрессию, либо пробитную регрессию (glm с нормальным cdf в качестве функции ссылки).
Если вы выполняете логистическую регрессию, ответом будет отношение наблюдаемых подсчетов, деленное на известную верхнюю границу, т.е.Yя/ ня . Затем возьмите свои предикторы / ковариаты и поместите их в свой вызов R для функции glm. В возвращенном объекте есть все, что вам нужно для выполнения остальных ваших расчетов.
Для модели линейной регрессии формула для интервала прогнозирования:
Вы можете использовать модель линейной регрессии в качестве приближения для GLM. Чтобы сделать это, вы бы использовали формулу линейной регрессии для линейной комбинации предикторов, прежде чем выполнять обратное преобразование связи, чтобы получить вероятности обратно по шкале 0-1. Код для этого встроен в функцию предиката.glm () R. Вот пример кода, который также создаст хороший сюжет. ( РЕДАКТИРОВАТЬ : этот код предназначен для доверительного интервала, а не для интервала прогнозирования)
Вы можете сделать то же самое для любого glm, например, Пуассона, обратного гауссова, гамма и т. Д. В каждом случае делайте интервал прогнозирования в масштабе линейной комбинации предикторов. После того, как вы получите две конечные точки интервала прогнозирования, вы конвертируете эти конечные точки по обратной ссылке. Для каждого из упомянутых мною glms обратная ссылка может отличаться от логита, который я написал здесь. Надеюсь это поможет.
источник