вступление
У меня есть участники, которые неоднократно касаются загрязненных поверхностей кишечной палочкой в двух состояниях ( A = ношение перчаток, B = отсутствие перчаток). Я хочу знать, есть ли разница между количеством бактерий на кончиках пальцев в перчатках и без них, а также между количеством контактов. Оба фактора находятся внутри участника.
Экспериментальный метод:
Участники (n = 35) касаются каждого квадрата один раз одним и тем же пальцем максимум для 8 контактов (см. Рисунок а).
Затем я протираю палец участника и измеряю бактерии на кончике пальца после каждого контакта. Затем они с помощью нового пальца касаются разного количества поверхностей и т. Д. От 1 до 8 контактов (см. Рисунок б).
Вот реальные данные: реальные данные
Данные не являются нормальными, поэтому смотрите предельное распределение бактерий | NumberContacts ниже. х = бактерия. Каждый аспект - это разное количество контактов.
МОДЕЛЬ
Попытка из lme4 :: glmer на основе предложений amoeba с использованием Gamma (link = "log") и полинома для NumberContacts:
cfug<-glmer(CFU ~ Gloves + poly(NumberContacts,2) + (-1+NumberContacts|Participant),
data=(K,CFU<4E5),
family=Gamma(link="log")
)
plot(cfug)
NB. Гамма (link = "inverse") не будет работать, говоря, что разделение на два шага PIRLS не смогло уменьшить отклонение.
Результаты:
Приспособлено против остатков для cfug
qqp (кубовые остатки (cfug))
Вопрос:
Правильно ли определена моя модель блеска, чтобы учесть случайные эффекты каждого участника и тот факт, что каждый проводит эксперимент A с последующим экспериментом B ?
Дополнение:
Автокорреляция, кажется, существует между участниками. Вероятно, это связано с тем, что они не были проверены в один и тот же день, а колба бактерий растет и со временем уменьшается. Это имеет значение?
acf (CFU, лаг = 35) показывает значительную корреляцию между одним участником и следующим.
NumberContacts
в качестве числового множителя и включить квадратичные / кубические полиномиальные члены. Или посмотрите на Обобщенные Аддитивные Смешанные Модели.CFU ~ Gloves * poly(NumberContacts,2) + (Gloves * poly(NumberContacts,2) | Participant)
или что-то в этом роде.CFU ~ Gloves * poly(NumberContacts,2) + (Gloves + poly(NumberContacts,2) | Participant)
или, может быть, удалить Перчатки оттудаCFU ~ Gloves * poly(NumberContacts,2) + (poly(NumberContacts,2) | Participant)
...Gloves * poly(NumberContacts,2) + (poly(NumberContacts,2) | Participant)
, это довольно приличная модель.Ответы:
Некоторые участки для изучения данных
Ниже приведены восемь, по одному для каждого числа поверхностных контактов, на графиках xy показаны перчатки, а не перчатки.
Каждый человек нанесен на карту с точкой. Среднее значение, дисперсия и ковариация обозначены красной точкой и эллипсом (расстояние Махаланобиса соответствует 97,5% населения).
Вы можете видеть, что эффекты только незначительны по сравнению с распространением населения. Среднее значение выше для «без перчаток», и среднее значение немного выше для большего количества поверхностных контактов (что может быть показано как существенное). Но эффект только небольшой по размеру (в целом14 сокращение журнала), и есть много людей , для тех , кто есть на самом деле рассчитывать более высокие бактерии с перчатками.
Небольшая корреляция показывает, что у людей действительно есть случайный эффект (если у человека не было эффекта, то не должно быть корреляции между парными перчатками и перчатками). Но это лишь небольшой эффект, и у индивидуума могут быть разные случайные эффекты для «перчаток» и «без перчаток» (например, для всех разных точек контакта у индивидуума могут быть постоянно более высокие / более низкие показатели для «перчаток», чем «без перчаток») ,
Ниже приведены отдельные участки для каждого из 35 человек. Идея этого графика заключается в том, чтобы увидеть, является ли поведение однородным, а также посмотреть, какая функция кажется подходящей.
Обратите внимание, что «без перчаток» красного цвета. В большинстве случаев красная линия выше, больше бактерий для случаев «без перчаток».
Я считаю, что линейного сюжета должно быть достаточно, чтобы уловить здесь тенденции. Недостаток квадратичного графика состоит в том, что коэффициенты будет труднее интерпретировать (вы не увидите непосредственно, является ли наклон положительным или отрицательным, потому что на это влияют и линейный член, и квадратный член).
Но что еще более важно, вы видите, что тенденции сильно различаются между разными людьми, и поэтому может быть полезно добавить случайный эффект не только для перехвата, но и для склонности человека.
модель
С моделью ниже
,
Это дает
код для получения участков
хемометрика :: функция DrawMahal
5 х 7 сюжет
2 х 4 сюжет
источник
Что касается использования
MASS:glmmPQL
илиlme4:glmer
вашей модели, я понимаю, что обе эти функции будут соответствовать одной и той же модели (при условии, что вы задаете уравнение модели, распределение и функцию связи одинаково), но они используют разные методы оценки для нахождения соответствия. Я могу ошибаться, но, насколько я понимаю из документации,glmmPQL
используется штрафная квази-правдоподобие, как описано в Wolfinger and O'Connell (1993) , тогда какglmer
используется квадратура Гаусса-Эрмита. Если вы беспокоитесь об этом, вы можете согласовать свою модель с обоими методами и убедиться, что они дают одинаковые оценки коэффициентов, и таким образом у вас будет большая уверенность в том, что алгоритм подбора сходится к истинным MLE коэффициентов.Эта переменная имеет естественный порядок, который, как видно из ваших графиков, имеет гладкую связь с переменной отклика, поэтому вы можете разумно рассматривать ее как числовую переменную. Если вы
factor(NumberContacts)
включите его, вы не будете ограничивать его форму и не потеряете много степеней свободы. Вы даже можете использовать взаимодействие,Gloves*factor(NumberContacts)
не теряя слишком много степеней свободы. Тем не менее, стоит подумать, не приведет ли использование факторной переменной к переопределению данных. Учитывая, что в вашем графике есть довольно гладкие отношения, простая линейная или квадратичная функция могла бы получить хорошие результаты без чрезмерной подгонки.Вы уже поместили свою переменную ответа в логарифмическую шкалу, используя функцию логарифмической связи, поэтому эффект перехвата для
Participant
дает мультипликативный эффект на ответ. Если бы вы дали этому случайному наклону взаимодействовать сNumberContacts
ним, это бы имело эффект силы на ответ. Если вы хотите это, то вы можете получить его,(~ -1 + NumberContacts|Participant)
который удалит перехват, но добавит наклон в зависимости от количества контактов.Начните с просмотра вашего остаточного участка, чтобы увидеть, есть ли признаки гетероскедастичности. Исходя из графиков, которые вы уже включили, мне кажется, что это не проблема, поэтому вам не нужно добавлять весовые коэффициенты для дисперсии. Если вы сомневаетесь, вы можете добавить веса, используя простую линейную функцию, а затем выполнить статистический тест, чтобы увидеть, является ли наклон веса плоским. Это будет формальным тестом гетероскедастичности, который даст вам некоторую резервную копию для вашего выбора.
Если вы уже включили термин случайного эффекта для участника, то было бы неплохо добавить термин автокорреляции для числа контактов. В вашем эксперименте используется другой палец для разного количества контактов, поэтому вы не ожидаете автокорреляции для случая, когда вы уже учли участника. Добавление термина автокорреляции в дополнение к эффекту участника будет означать, что вы думаете, что между результатами разных пальцев существует условная зависимость, основанная на количестве контактов, даже для данного участника.
источник
Действительно, разумно утверждать, что измерения, взятые у одного участника, не являются независимыми от измерений, проведенных у другого участника. Например, некоторые люди могут нажимать на палец с большей (или меньшей) силой, что повлияет на все их измерения по каждому количеству контактов.
Таким образом, ANOVA с двусторонним повторным измерением будет приемлемой моделью для применения в этом случае.
В качестве альтернативы можно также применить модель смешанных эффектов со
participant
случайным фактором. Это более продвинутое и более сложное решение.источник