Могут ли эти данные быть объединены в пропорции для биномиального глм?

11

Мы попросили 60 человек перечислить как можно больше ресторанных франшиз в Атланте. Общий список включал более 70 ресторанов, но мы исключили те, которые были упомянуты менее чем 10% людей, оставив нам 45. Для этих 45 мы рассчитали долю информантов, которые перечислили франшизу, и нас интересует моделирование этой пропорции в зависимости от рекламного бюджета франшиз (трансформированных в журнал) и количества лет, прошедших с момента получения франшизы.

Итак, я написал этот код:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Как и предполагалось, обе переменные демонстрируют сильные, существенные эффекты.

Но хотя я знаю, что пропорциональные данные никогда не должны моделироваться с помощью регрессии OLS, я впоследствии написал этот код:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

В этом случае «бюджет» все еще является значимым предиктором, но «годы» относительно слабы и не значимы.

Меня беспокоит, что агрегация искусственно завышает доверие к оценкам. Разве биномиальный glm по существу не векторизует данные, так что модель основана на 45 * 55 = 2475 строках? Это уместно, учитывая, что на самом деле есть только 45 ресторанов и 55 информантов? Будет ли это требовать моделирования смешанных эффектов?

Джереми _
источник
4
намекают: посмотреть , что происходит сfamily=quasibinomial
Бен Bolker
1
Интересный. Оценочные коэффициенты одинаковы, но стандартные ошибки более консервативны (а годы не значимы в квазибиномиальной модели). Я ищу файлы справки для квазибинома, но не могли бы вы объяснить, что происходит? У меня сложилось впечатление, что квазибиномы используются в основном для сверхдисперсности. , ,
Джереми _
3
Точно. Существует множество различий между lmи glm(...,family=binomial), но одно из важных состоит в том, что биномиальный GLM делает сильные предположения о дисперсии. Если данные не перераспределены, то агрегирование / дезагрегация не имеет значения.
Бен Болкер
1
Выходное значение R показывает, что параметр дисперсии принят равным 8,7. Я пытаюсь понять, что это говорит о чрезмерной дисперсии. Тем временем, Бен, я вижу, что у тебя достаточно опыта работы со смешанными моделями. Безопасно ли использовать биномиальный glm без смешанных эффектов для информатора или франшизы (в этом случае мне, вероятно, придется векторизовать все данные при добавлении столбца для «Informant ID»)?
Джереми _

Ответы:

1

Y=cX1k1X2k2...Xnknln(Y)=ln(c)+k1ln(X1)+k2ln(X2)...+knln(Xn)R2

Теперь, если неизмененная линия регрессии (в идеале двумерная регрессия, например, регрессия Деминга) не проходит правдоподобно через {0,0}, тогда она становится немного более сложной, и каждый минимизирует функцию пропорциональных потерь со смещением, а не использует обычную наименьшую квадраты.

деревенщина
источник