Фон: я биостатист, в настоящее время борюсь с набором данных о клеточной экспрессии. В ходе исследования некоторые пептиды подвергались воздействию множества клеток, собранных группами от различных доноров. Клетки либо экспрессируют определенные биомаркеры в ответ, либо нет. Частота ответов затем записывается для каждой группы доноров. Частота ответов (выраженная в процентах) является результатом интереса, а воздействие пептидов является предиктором.
Обратите внимание, что наблюдения сгруппированы внутри доноров.
Поскольку у меня есть только сводные данные, я рассматриваю донорские ответы как непрерывные данные (по крайней мере, на данный момент).
Осложнение связано с тем, что в моих данных много нулей. Слишком много, чтобы игнорировать. Я рассматриваю гамма-модель с нулевым раздувом, чтобы учесть тот факт, что я исказил непрерывные данные в сочетании с переизбытком нулей. Я также рассмотрел модель Товит, но это, кажется, уступает, поскольку он предполагает цензуру на нижней границе, в отличие от подлинных нулей (эконометристы могут сказать различие является спорным).
Вопрос: Вообще говоря, когда уместно использовать модель с нулевой раздувкой? То есть каковы предположения? И как интерпретировать его выводы? Буду признателен за ссылки на статьи, в которых это обсуждается, если таковые имеются.
Я нашел ссылку на SAS-L, в которой Дейл МакЛерран предоставляет код NLMIXED для модели с нулевой раздувкой гаммы, так что это представляется возможным. Тем не менее, я бы не хотел идти вперед вслепую.
источник