Последующие действия: На смешанном графике ANOVA предполагаемые SE или фактические SE?

14

В настоящее время я заканчиваю работу и со вчерашнего дня наткнулся на этот вопрос, который заставил меня задать тот же вопрос самому себе. Лучше ли предоставить моему графику фактическую стандартную ошибку из данных или оценку, рассчитанную по моей ANOVA?
Поскольку вчерашний вопрос был довольно неопределенным, а мой - довольно конкретным, я подумал, что было бы целесообразно задать этот дополнительный вопрос.

Детали:
я провел эксперимент в некоторой области когнитивной психологии (условное мышление), сравнивая две группы (индуктивные и дедуктивные инструкции, т.е. манипуляции между субъектами) с двумя манипуляциями внутри субъектов (тип проблемы и содержание проблемы, каждая из которых два факторных уровня).

Результаты выглядят следующим образом (левая панель с оценками SE по выходу ANOVA, правая панель с оценками SE по данным): альтернативный текст
обратите внимание, что разные линии представляют две разные группы (то есть манипуляции между субъектами) и Манипуляции с субъектами наносятся на ось X (т.е. уровни факторов 2x2).

В тексте я приведу соответствующие результаты ANOVA и даже запланированные сравнения для критического перекрестного взаимодействия в середине. SE существуют для того, чтобы дать читателю намек на изменчивость данных. Я предпочитаю SE по сравнению со стандартными отклонениями и доверительными интервалами, так как это не характерно для построения SD, и существуют серьезные проблемы при сравнении CI внутри и между субъектами (как то же самое относится и к SE, это не так часто ложно выводить существенные различия от них).

Повторяю мой вопрос: лучше ли строить графики SE, оцененные по ANOVA, или мне следует построить SE, оцененные по необработанным данным?

Обновление:
я думаю, что я должен быть немного более ясным в том, каковы предполагаемые SE. Выход ANOVA в SPSS дает мне estimated marginal meansсоответствующие SE и CI. Это то, что изображено на левом графике. Насколько я понимаю, они должны быть SD остатков. Но при сохранении остатков их SD не так близки к оценочным SE. Поэтому второстепенный (потенциально специфичный для SPSS) вопрос будет:
что это за SE?


ОБНОВЛЕНИЕ 2: Мне наконец-то удалось написать R-функцию, которая должна была бы быть способной составить сюжет, так как он мне наконец понравился (см. Мой принятый ответ) сам по себе. Если у кого-то есть время, я был бы очень признателен, если бы вы взглянули на него. Вот.

Хенрик
источник
1
Можете ли вы уточнить прогнозируемую переменную «среднее одобрение»? Является ли эта шкала 0-100, которую участники использовали для ответа, или это мера доли испытаний, по которым участники сказали «да, я поддерживаю» (против «нет, я не поддерживаю»). Если последнее, то неуместно анализировать эти данные в пропорциях. Вместо этого вы должны анализировать необработанные пробные данные, используя модель смешанных эффектов с функцией биномиального связывания.
Майк Лоуренс
Извините, что пропустил это: это шкала ответов 0-100.
Хенрик
У вас много 0 или 100? Если нет, я бы рассмотрел деление на 100 и выполнение логит-преобразования, чтобы учесть ограничение диапазона в крайних значениях. По сути, это то, что достигается функцией биномиального связывания, когда у вас есть двоичные данные, но полезно, если у вас есть только данные, подобные пропорциям, как вы, кажется, здесь. Тем не менее, вы не можете войти в преобразование 1 или 0, поэтому вам придется бросить любые ответы 100 или 0.
Майк Лоуренс
Ой, только что понял, что мой первый комментарий не был на 100% правильным. Каждое среднее значение представляет собой среднее из двух ответов по шкале 0-100. В этих данных есть много значений, очень близких к 100, а некоторые прямо на 100, но на самом деле очень мало при 0 и около 0. У вас есть литература для обоснования вашей рекомендации?
Хенрик
1
Другие люди визуализации данных могут утверждать, что гистограммы являются преступлением против человечества: Op
Майк Лоуренс

Ответы:

9

В результате вдохновляющих ответов и обсуждения моего вопроса я построил следующие графики, которые не зависят от каких-либо параметров, основанных на модели, но представляют базовые данные.

Причины состоят в том, что независимо от того, какую стандартную ошибку я могу выбрать, стандартная ошибка является параметром, основанным на модели. Итак, почему бы не представить базовые данные и тем самым передать больше информации?

Кроме того, при выборе SE из ANOVA, две проблемы возникают для моих конкретных проблем.
Во-первых (по крайней мере, для меня), как-то неясно, что на SPSSсамом деле представляют SE от выхода ANOVA ( см. Также это обсуждение в комментариях ). Они как-то связаны с MSE, но как именно я не знаю.
Во-вторых, они разумны только тогда, когда основные предположения выполнены. Однако, как показывают следующие графики, предположения об однородности дисперсии явно нарушаются.

Участки с коробками: альтернативный текст

Участки со всеми точками данных: альтернативный текст

Обратите внимание, что две группы смещены немного влево или вправо: дедуктивный слева, индуктивный справа. Средние значения по-прежнему изображены черным, а данные или прямоугольники на заднем плане - серым. Различия между графиками слева и справа заключаются в том, что средства расположены так же, как точки или коробочные графики, или если они представлены централизованно.
Извините за неоптимальное качество графиков и отсутствующие метки оси X.

Остается вопрос, какой из приведенных выше графиков выбрать сейчас. Я должен подумать об этом и спросить другого автора нашей статьи. Но сейчас я предпочитаю «очки со смещенными средствами». И я все еще был бы очень заинтересован в комментариях.


Обновление: после некоторого программирования мне наконец-то удалось написать R-функцию для автоматического создания графика, подобного точкам со смещенными средствами. Проверьте это (и пришлите мне комментарии) !

Хенрик
источник
Отличный Хенрик. Я также предпочитаю «очки со смещенными средствами». Связывание предметов с отрезками может выглядеть слишком загроможденным. Жалость. Что касается однородности дисперсии, я немного более оптимистичен. Проблема отклонений может быть не такой серьезной, как в исходных данных. Я подозреваю, что по большей части вы будете сравнивать контрасты - внутри групповых различий. Контрастные отклонения будут более однородными, чем отклонения необработанных данных. Если сравнивать необработанные показатели с различными отклонениями (например, индуктивный и дедуктивный в группе MP-валида и правдоподобных), в качестве резервного можно использовать непараметрический тест.
Thylacoleo
1
Мне нравятся точки со средним значением. У этого есть более точное представление линий. Вы могли бы сделать очки меньше.
Джон
8

Вы не найдете ни одной разумной панели ошибок для логических целей с этим типом экспериментального дизайна. Это старая проблема без четкого решения.

Кажется невозможным иметь оценку SE, которую вы имеете здесь. В такой конструкции есть два основных вида ошибок: между и внутри S-ошибки. Они обычно сильно отличаются друг от друга и не сопоставимы. Там просто действительно нет хорошей единой панели ошибок для представления ваших данных.

Можно утверждать, что необработанные SE или SD из данных наиболее важны в описательном, а не в логическом смысле. Они либо говорят о качестве оценки центральной тенденции (SE), либо о вариабельности данных (SD). Тем не менее, даже тогда это несколько неискренне, потому что то, что вы тестируете и измеряете в S, это не то необработанное значение, а эффект переменной S. Следовательно, сообщать об изменчивости необработанных значений либо бессмысленно, либо вводить в заблуждение относительно внутренних эффектов.

Я, как правило, не одобрял никаких погрешностей на таких графиках и графиках соседних эффектов, указывающих на изменчивость эффектов. На этом графике могут быть КИ, которые вполне разумны. См. Masson & Loftus (2003) для примеров графиков эффектов. Просто удалите их ((почти полностью бесполезные) панели ошибок вокруг средних значений, которые они показывают, и просто используйте эффектные панели ошибок.

Для вашего исследования я сначала воспроизведу данные в виде 2х2х2 (2 панели 2х2), а затем нанесу график непосредственно рядом с графиком с доверительными интервалами достоверности, правдоподобности, инструкций и эффектов взаимодействия. Положите SD и SE для групп инструкций в таблицу или в текст.

(ожидание ожидаемого ответа анализа смешанных эффектов;))

ОБНОВЛЕНИЕ: ОК, после редактирования ясно, что единственное, что вам нужно, это SE, который будет использоваться для отображения качества оценки значения. В этом случае используйте значения вашей модели. Оба значения основаны на модели, и в вашем образце нет «истинного» значения. Используйте те из модели, которую вы применили к своим данным. НО, убедитесь, что вы предупреждаете читателей в подписи к рисунку, что эти SE не имеют никакого косвенного значения для ваших внутриэффектных эффектов или взаимодействий.

ОБНОВЛЕНИЕ 2: Оглядываясь назад на данные, которые вы представили ... это выглядит подозрительно, как проценты, которые не должны были быть проанализированы с помощью ANOVA в первую очередь. Независимо от того, есть это или нет, эта переменная имеет максимальное значение 100 и уменьшает отклонения в крайних значениях, поэтому ее все равно не следует анализировать с помощью ANOVA. Мне очень нравятся твои сюжеты rm.plot. Я все еще испытывал бы желание сделать отдельные графики между условиями, показывая необработанные данные, и в условиях, показывая данные с удаленной изменчивостью между S.

Джон
источник
1
У меня есть веские (не статистические) причины для построения графика таким, какой он есть: вы непосредственно видите ответ на вопрос исследования. Кроме того, я не ищу полосы ошибок для логических целей, так как знаю о проблемах между ними. Но, благодаря точному указанию меня на Мейсона и Лофтуса, я, должно быть, забыл, что у них был смешанный пример. Я должен думать о том, служит ли это моей цели.
Хенрик
7

Это выглядит как очень хороший эксперимент, так что поздравляю!

Я согласен с Джоном Кристи, это смешанная модель, но при условии, что она может быть точно определена в дизайне ANOVA (и сбалансирована), я не понимаю, почему она не может быть так сформулирована. Два фактора внутри и 1-фактор между субъектами, но фактор между субъектами (индуктивный / дедуктивный) явно взаимодействует (модифицирует) эффекты внутри субъектов. Я предполагаю, что нанесенные средние значения взяты из модели ANOVA (LHS), и поэтому модель указана правильно. Молодцы - это нетривиально!

Некоторые моменты: 1) «Предполагаемый» против «фактической» «ошибки» является ложной дихотомией. Оба предполагают базовую модель и делают оценки на этой основе. Если модель является разумной, я бы сказал, что лучше использовать основанные на модели оценки (они основаны на объединении более крупных выборок). Но, как упоминает Джеймс, ошибки различаются в зависимости от того, какое сравнение вы проводите, поэтому простое представление невозможно.

2) Я бы предпочел видеть графические диаграммы или отдельные точки данных (если их не слишком много), возможно, с некоторым боковым джиттером, чтобы можно было различить точки с одинаковым значением.

http://en.wikipedia.org/wiki/Box_plot

3) Если вы должны построить оценку ошибки среднего значения, никогда не наносите на график SD - они являются оценкой стандартного отклонения выборки и связаны с изменчивостью популяции, а не статистическим сравнением средних значений. Обычно предпочтительнее построить 95% доверительные интервалы, а не SE, но не в этом случае (см. 1 и точку зрения Джона)

4) Единственная проблема, связанная с этими данными, которая касается меня, заключается в том, что предположение о равномерной дисперсии, вероятно, нарушается, поскольку данные «Допустимые и достоверные значения MP» явно ограничены пределом в 100%, особенно для дедуктивных людей. Я думаю, насколько важен этот вопрос. Переход к логиту со смешанными эффектами (биномиальная вероятность), вероятно, является идеальным решением, но это сложная задача. Возможно, лучше дать другим ответить.

Thylacoleo
источник
Я не совсем уверен, что понимаю вашу рекомендацию в 1. Поскольку фактическая SE [то есть SD / sqrt (n)] и предполагаемая SE основаны на модели, вы рекомендуете использовать модель. Так какой? Или вы имеете в виду: пойти на более сложную модель (здесь: ANOVA), потому что обе модели являются разумными.
Хенрик
полностью согласен с пунктом 1
Джон
Привет Хенрик, Простой пример - сравните две группы (x1, x2) с предположением ND. Допущения и модели: 1) Независимая выборка, различная дисперсия. SE для x1, x2 оценивается отдельно. Это неявно предположение во многих графических представлениях. Расчетные SE отличаются. 2) Индеп., Тот же вар. Обычное предположение ANOVA. Оцените SE, используя объединенные RSS. Оценка является более надежной, если предположения верны. 3) У каждого x1 есть пара x2. СЭ оценивается от х1-х2. Чтобы эффективно построить их, нужно изобразить разницу x1-x2. После того, как вы смешаете 1) и 2), у вас возникнет реальная проблема в построении значимых SE или CI.
Thylacoleo
Хенрик, комментарий к сюжету. Сколько предметов у вас есть? Я настоятельно рекомендую наносить данные индивидуально и использовать отрезки для связи отдельных лиц. (Средство, связывающее отрезки, обманчиво.) Нет необходимости строить SE. Идея состоит в том, чтобы визуально поддержать ваш статистический анализ. При условии, что сюжет не станет слишком загроможденным, читатель должен видеть (например), что абсолютное большинство баллов возрастает от MP-valid-implaus до AC-invalid-plaus для индуктивной группы и вниз для дедуктивной группы. См .: jstor.org/stable/2685323?seq=1 Особенно нижние панели рис. 1 и 9.
Thylacoleo
3

В последнее время я использую анализ смешанных эффектов, и в попытке разработать сопутствующий подход к визуальному анализу данных я использовал начальную загрузку ( см. Мое описание здесь ), которая дает доверительные интервалы, которые не восприимчивы к проблемам между и между ними. обычных КИ.

Кроме того, я бы не стал отображать несколько переменных в одну визуальную эстетику, как вы сделали на графике выше; у вас есть 3 переменные (MP / AC, действительные / недействительные, правдоподобные / неправдоподобные), сопоставленные с осью X, что затрудняет анализ дизайна и шаблонов. Я бы предложил вместо этого сопоставить, скажем, MP / AC с осью X, действительный / недействительный для столбцов фасет и вероятный / неправдоподобный для рядов фасет. Проверьте ggplot2 в R, чтобы легко достичь этого, например:

library(ggplot2)
ggplot(
    data = my_data
    , mapping = aes(
        y = mean_endorsement
        , x = mp_ac
        , linetype = deductive_inductive
        , shape = deductive_inductive
)+
geom_point()+
geom_line()+
facet_grid(
    plausible_implausible ~ valid_invalid
)
Майк Лоуренс
источник
Майк, в пакете languageR функция pvals.fnc выполняет MCMC для оценки гипотез модели Лмера - однако она не обрабатывает конструкции со случайными уклонами - что наводит меня на мысль, что по какой-то причине выполнение MCMC со случайными уклонами было в что-то проблематично, вы точно знаете, что такой проблемы нет?
russellpierce
Я должен признать, что до сих пор не понял, как работает MCMC, и это одна из причин, по которой я выбрал загрузку. Хотя начальная загрузка должна быть возможна со случайными уклонами, как вы отметили, может случиться так, что pvals.fnc не позволяет вам делать CI для моделей со случайными уклонами, потому что это по какой-то причине недопустимо, и, кроме того, возможно, что эта недействительность распространяется на загружаю такие модели. Я не думаю, что с начальной загрузкой могут возникнуть какие-либо проблемы, но это может быть связано с моим ограниченным опытом.
Майк Лоуренс