Я проанализировал эксперимент с повторными измерениями ANOVA. ANOVA - это 3x2x2x2x3 с 2 факторами между субъектами и 3 внутри (N = 189). Уровень ошибок является зависимой переменной. Распределение коэффициентов ошибок имеет перекос 3,64 и эксцесс 15,75. Наклон и куртоз являются результатом того, что 90% от среднего значения ошибок равняется 0. Чтение некоторых из предыдущих потоков по тестам нормальности здесь меня немного смущает. Я подумал, что если у вас есть данные, которые обычно не распространялись, в ваших интересах было бы преобразовать их, если это возможно, но кажется, что многие люди считают, что анализ ненормальных данных с помощью ANOVA или T-теста является приемлемым. Могу ли я доверять результатам ANOVA?
(К вашему сведению, в будущем я намерен проанализировать этот тип данных в R со смешанными моделями с биномиальным распределением)
Ответы:
Как и другие параметрические тесты, анализ отклонений предполагает, что данные соответствуют нормальному распределению. Если ваша переменная измерения обычно не распределена, вы можете увеличить свой шанс ложного положительного результата, если вы проанализируете данные с помощью ановы или другого теста, который предполагает нормальность. К счастью, анова не очень чувствительна к умеренным отклонениям от нормы; Имитационные исследования с использованием различных ненормальных распределений показали, что это ложное положительное влияние на уровень ложноположительных результатов не сильно влияет (Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996). Это связано с тем, что когда вы берете большое количество случайных выборок из совокупности, средние значения этих выборок приблизительно нормально распределяются, даже если совокупность не является нормальной.
Можно проверить соответствие набора данных нормальному распределению. Я не советую вам делать это, потому что многие наборы данных, которые являются значительно ненормальными, будут идеально подходить для ановы.
Вместо этого, если у вас достаточно большой набор данных, я предлагаю вам взглянуть на частотную гистограмму. Если это выглядит более-менее нормально, сделайте анову. Если это выглядит как нормальное распределение, которое было перенесено в одну сторону, как, например, сульфатные данные выше, вы должны попробовать различные преобразования данных и посмотреть, не сделает ли какое-либо из них гистограмму более нормальной. Если это не сработает, и данные по-прежнему выглядят совершенно ненормальными, вероятно, все еще можно анализировать данные с использованием anova. Однако вы можете проанализировать его с помощью непараметрического теста. Почти в каждом параметрическом статистическом тесте есть непараметрический заменитель, такой как критерий Крускала-Уоллиса вместо односторонней ановы, тест рангового ранга Уилкоксона вместо парного t-теста и ранговая корреляция Спирмена вместо линейной регрессии. Эти непараметрические тесты не предполагают, что данные соответствуют нормальному распределению. Однако они предполагают, что данные в разных группах имеют одинаковое распределение; если разные группы имеют разные формы распределения (например, одна перекошена влево, другая перекошена вправо), непараметрический критерий может быть не лучше параметрического.
Ссылки
источник
В частности, в отношении частоты появления ошибок как DV, Диксон (2008) очень убедительно демонстрирует, что проверка нулевой гипотезы с помощью ANOVA может привести как к увеличению частоты ложных тревог (вызывающие эффекты «значительны», когда они отсутствуют), так и к увеличению частоты промахов (пропуская реальные эффекты). Он также показывает, что моделирование смешанных эффектов, определяющее биномиально распределенную ошибку, является более подходящим подходом к анализу данных о скорости.
источник
Вы не можете доверять своей ANOVA с таким большим перекосом и большим количеством нулей. Более подходящим методом было бы использовать количество ошибок в качестве вашего DV (таким образом, превращая ваше DV в данные подсчета) и выполнять анализ Пуассона. Этот подход потребует использования смешанного анализа эффектов и определения семейства ошибок в качестве Пуассона. В статье Диксона (2008) *, упомянутой Майком Лоуренсом, используется анализ смешанных эффектов в R, но с биномиальными результатами. Я полностью перешел на выполнение R для большинства моих повторных анализов измерений, потому что многие из моих переменных результата являются биномиальными. Соответствующий пакет R есть
lme4
.источник
Хуан многое предложил, хотя я повторю другим и повторю, что для лучшей точности сами переменные могут быть ненормальными, если их остатки - нет. Кроме того, упрощенный и немного более структурированный ответ (с помощью аннотированной блок-схемы) доступен на yellowbrickstats.com .
источник
Потолочные эффекты являются проблемой здесь. Непараметрический тест - ваша самая безопасная ставка, хотя ANOVA устойчивы к этому нарушению нормальности, если n большое. Обычно люди просто используют гистограмму для проверки этого, но если проблема связана с остатками, она может быть более сложной, чем эта. Также имейте в виду, КАК это влияет на ваши результаты (не только, что это делает). Pallant (2007), вероятно, сказал бы, что это увеличивает вероятность возникновения ошибки первого типа, поэтому, если вы уменьшите критическую альфа, вы уменьшите ее.
источник