Правильное использование и интерпретация моделей с нулевой раздувкой

11

Фон: я биостатист, в настоящее время борюсь с набором данных о клеточной экспрессии. В ходе исследования некоторые пептиды подвергались воздействию множества клеток, собранных группами от различных доноров. Клетки либо экспрессируют определенные биомаркеры в ответ, либо нет. Частота ответов затем записывается для каждой группы доноров. Частота ответов (выраженная в процентах) является результатом интереса, а воздействие пептидов является предиктором.

Обратите внимание, что наблюдения сгруппированы внутри доноров.

Поскольку у меня есть только сводные данные, я рассматриваю донорские ответы как непрерывные данные (по крайней мере, на данный момент).

Осложнение связано с тем, что в моих данных много нулей. Слишком много, чтобы игнорировать. Я рассматриваю гамма-модель с нулевым раздувом, чтобы учесть тот факт, что я исказил непрерывные данные в сочетании с переизбытком нулей. Я также рассмотрел модель Товит, но это, кажется, уступает, поскольку он предполагает цензуру на нижней границе, в отличие от подлинных нулей (эконометристы могут сказать различие является спорным).

Вопрос: Вообще говоря, когда уместно использовать модель с нулевой раздувкой? То есть каковы предположения? И как интерпретировать его выводы? Буду признателен за ссылки на статьи, в которых это обсуждается, если таковые имеются.

Я нашел ссылку на SAS-L, в которой Дейл МакЛерран предоставляет код NLMIXED для модели с нулевой раздувкой гаммы, так что это представляется возможным. Тем не менее, я бы не хотел идти вперед вслепую.

Бренден Дюфо
источник

Ответы:

5

Во-первых, вы не видите настоящие нули в данных выражений. Ваш биолог говорит, что, как и все биологи, но когда биолог говорит «это ноль», это на самом деле означает «он ниже моего порога обнаружения, поэтому он не существует». Это проблема языка из-за отсутствия математической сложности в этой области. Я говорю из личного опыта здесь.

Объяснение ноль завышенной гаммы в ссылке, которую вы предоставляете, превосходно. Физический процесс, ведущий к вашим данным, если я понимаю, выбирается донор, затем обрабатывается определенным пептидом, и ответ измеряется по клеткам этого донора. Здесь есть пара слоев. Одним из них является общая сила реакции донора, которая влияет на уровень экспрессии каждой конкретной клетки, которая измеряется. Если вы интерпретируете свою переменную Бернулли в «Гамме с завышенным нулем» как «ответ донора достаточно силен для измерения», то это может быть хорошо. Просто отметьте, что в этом случае вы смешиваете шум экспрессии отдельной клетки с различием между сильно отвечающими донорами. Поскольку шум в экспрессии в одной ячейке примерно гамма-распределен,

Если дополнительная разница между донорами и клетками не портит вашу гамма-посадку, и вы просто пытаетесь получить экспрессию против применяемого пептида, то нет никаких причин, почему это не должно быть хорошо.

Если требуется более подробный анализ, я бы порекомендовал создать собственную иерархическую модель, соответствующую процессу, который приведет к вашим измерениям.

user873
источник
3

Я нашел решение, которое я считаю довольно элегантным. В литературе есть отличная статья под названием «Анализ данных повторных измерений с комкованием в нуле», которая демонстрирует логически нормальную модель с нулевым раздуванием для коррелированных данных. Авторы предоставляют макрос SAS, который основан на PROC NLMIXED и довольно прост в реализации. Хорошей новостью является то, что это может упростить случаи без кластерных наблюдений, если пропустить repeatedутверждение в макросе. Плохая новость заключается в том, что в NLMIXED еще нет многих корреляционных структур, которые нам часто нужны, таких как авторегрессия.

Макрос называется MIXCORR и имеет очень полезную вики-страницу, которую вы можете найти здесь . Сам макрос можно скачать здесь .

Я настоятельно рекомендую все эти ссылки. Надеюсь, вы найдете их полезными.

Бренден Дюфо
источник