Мы попросили 60 человек перечислить как можно больше ресторанных франшиз в Атланте. Общий список включал более 70 ресторанов, но мы исключили те, которые были упомянуты менее чем 10% людей, оставив нам 45. Для этих 45 мы рассчитали долю информантов, которые перечислили франшизу, и нас интересует моделирование этой пропорции в зависимости от рекламного бюджета франшиз (трансформированных в журнал) и количества лет, прошедших с момента получения франшизы.
Итак, я написал этот код:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Как и предполагалось, обе переменные демонстрируют сильные, существенные эффекты.
Но хотя я знаю, что пропорциональные данные никогда не должны моделироваться с помощью регрессии OLS, я впоследствии написал этот код:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
В этом случае «бюджет» все еще является значимым предиктором, но «годы» относительно слабы и не значимы.
Меня беспокоит, что агрегация искусственно завышает доверие к оценкам. Разве биномиальный glm по существу не векторизует данные, так что модель основана на 45 * 55 = 2475 строках? Это уместно, учитывая, что на самом деле есть только 45 ресторанов и 55 информантов? Будет ли это требовать моделирования смешанных эффектов?
источник
family=quasibinomial
lm
иglm(...,family=binomial)
, но одно из важных состоит в том, что биномиальный GLM делает сильные предположения о дисперсии. Если данные не перераспределены, то агрегирование / дезагрегация не имеет значения.Ответы:
Теперь, если неизмененная линия регрессии (в идеале двумерная регрессия, например, регрессия Деминга) не проходит правдоподобно через {0,0}, тогда она становится немного более сложной, и каждый минимизирует функцию пропорциональных потерь со смещением, а не использует обычную наименьшую квадраты.
источник