Как правильно обрабатывать несколько точек данных по каждому предмету

10

В настоящее время я спорю с кем-то о том, как правильно обрабатывать данные с несколькими измерениями для каждого субъекта. В этом случае данные были собраны для каждого субъекта в течение короткого времени для различных условий в каждом субъекте. Все измерения объединяют одну и ту же переменную, только несколько.

Один из вариантов теперь состоит в том, чтобы просто сгруппировать данные по условиям и не заботиться о том, чтобы несколько точек данных исходили от одного субъекта. Однако данные по каждому предмету, вероятно, не являются полностью независимыми.

Другая альтернатива состоит в том, чтобы сначала взять среднее значение всех измерений для каждого состояния от каждого субъекта, а затем сравнить средние значения. Однако это, вероятно, повлияет на значимость, поскольку в конечном счете не учитывается, что средства имеют меньшую ошибку.

Как вы можете правильно проанализировать такие данные? Об этом как-то заботятся в SPSS? В принципе, должна быть возможность рассчитать допустимую погрешность при вычислении среднего значения, а затем учитывать это в конечном счете, но я не думаю, что SPSS каким-то образом выполняет этот расчет за моей спиной.

LiKao
источник
1
Является ли эта схема повторных измерений такой, что каждый субъект работает во всех или во многих условиях? Или это просто независимые группы или меры, где каждый субъект находится в одном состоянии?
Джон
В этом дизайне каждый предмет работает в любых условиях. Однако есть некоторые данные, которые необходимо отклонить, потому что субъекты не справились с поставленной задачей. Маловероятно, что субъект потерпит неудачу во всех подзадачах для одного условия (имеется около 40 повторений в условии), поэтому, скорее всего, у каждого субъекта будут точки данных для всех условий.
LiKao

Ответы:

9

Было бы нарушением независимости «группировать данные по условиям и не заботиться о том, чтобы несколько точек данных исходили от одного субъекта». Так что это не пойдет. Один из подходов состоит в том, чтобы «взять среднее значение всех измерений для каждого состояния каждого субъекта и затем сравнить его». Вы можете сделать это таким образом, вы не нарушите независимость, но вы теряете некоторую информацию в агрегации на уровне предметного уровня.

На первый взгляд, это звучит как смешанный дизайн с условиями между субъектами и несколькими периодами времени, измеренными внутри объектов. Однако возникает вопрос: почему вы собирали данные в разные моменты времени? Ожидается ли, что влияние времени или прогрессия переменной во времени будет различным в зависимости от условий? Если ответ на любой из этих вопросов будет положительным, то, учитывая структуру данных, я ожидаю, что вас интересует смешанная ANOVA. Смешанный ANOVA разделит субъектную дисперсию из SSTotal «за вашей спиной» как бы. Но то, поможет ли это разделение вашей проверки условий между предметами, зависит от нескольких других факторов.

В любом случае, в SPSS / PASW 18 Анализ -> Общая линейная модель -> Повторные измерения. У вас будет одна строка для каждого предмета и один столбец для каждого момента времени, а также один в качестве идентификатора их условия. Идентификатор условия перейдет в раздел «между», и повторные измерения будут учтены при определении коэффициента повторных измерений.

russellpierce
источник
Хорошо, это то, что я думал. Несколько точек данных для каждого условия собираются по двум причинам. Во-первых, таким образом данные должны быть более надежными. Другая причина заключается в том, что некоторые данные должны быть отброшены (субъекты не всегда следовали инструкциям правильно). Условия полностью внутри предметов, поэтому у нас нет смешанного дизайна в этом случае вообще. К сожалению, повторная мера не подлежит сомнению, поскольку у нас имеется около 40 повторений на условие по каждому предмету. Однако большое количество повторений означает, что мы теряем много информации при использовании среднего.
LiKao
Тогда я рекомендую ответ Джона. Смешанная модель, вероятно, предпочтительнее. Это может моделировать как среднее значение, так и изменчивость в рамках каждого предмета и уважать вложение. Одна из проблем такого анализа заключается в том, что «правильные» степени свободы неясны и, следовательно, пороги статистической значимости также неясны. В отличие от предоставленного Джоном кода, я бы порекомендовал установить случайный наклон для вашего эффекта состояния (разные объекты отображают разные эффекты). Я видел некоторые симуляции, которые предполагают, что если вы этого не сделаете, это может повысить ваш уровень ошибок типа I.
russellpierce
4

Повторное измерение дизайна является традиционным способом справиться с этим, как отмечает drknexus. При проведении такого рода анализа вы должны объединить один балл / условие / предмет. Чувствителен к нарушениям допущений сферичности и другим вопросам. Однако более современный метод заключается в использовании многоуровневого моделирования или линейных смешанных эффектов. Используя эту технику, вы не агрегируете данные. Есть несколько способов лечения, но я не знаю лучшего базового учебника. Baayen (2008) Глава 7 хороша. Pinheiro & Bates (2000) очень хорош, но из звуков вещей следуйте их советам во вступлении и читайте фрагменты, рекомендуемые для начинающих.

Если вы хотите просто получить результат в стиле ANOVA, предполагая, что все ваши данные представлены в длинном формате (одна строка / точка данных) и у вас есть столбцы, указывающие тему, ответ (y) и переменную условия (x), вы можете попробовать глядя на что-то подобное в R (убедитесь, что пакет lme4 установлен).

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

Конечно, вы можете иметь гораздо больше столбцов переменных условий, возможно, взаимодействующих. Тогда вы можете изменить команду lmer на что-то вроде ...

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(Кстати, я считаю, что не агрегирование повторных мер для увеличения власти является формальной ошибкой. Кто-нибудь помнит имя?)

Джон
источник
Я думаю, что ошибка не суммировать и использовать df из числа ответов, а не количества субъектов является нарушением независимости. В качестве альтернативы (я думаю) можно подумать о том, чтобы сделать вывод на уровне ответов отдельных предметов для фиксированного набора предметов.
Russellpierce