Проверка предположений ANOVA

16

Несколько месяцев назад я опубликовал вопрос о тестах гомоскедастичности в R на SO, и Ян Феллоуз ответил на это (я перефразирую его ответ очень свободно):

Тесты на гомоскедастичность не являются хорошим инструментом при проверке соответствия вашей модели. С небольшими выборками у вас недостаточно мощности, чтобы обнаружить отклонения от гомоскедастичности, в то время как с большими выборками у вас есть «достаточно мощности», так что вы с большей вероятностью сможете отследить даже тривиальные отклонения от равенства.

Его великий ответ прозвучал как пощечина. Раньше я проверял предположения о нормальности и гомоскедастичности при каждом запуске ANOVA.

Какова, на ваш взгляд, лучшая практика при проверке допущений ANOVA?

aL3xa
источник

Ответы:

11

В прикладных настройках, как правило, более важно знать, является ли какое-либо нарушение допущений проблематичным для вывода.

Тесты допущений, основанные на тестах значимости, редко представляют интерес для больших выборок, поскольку большинство выводных тестов устойчивы к легким нарушениям допущений.

Одной из приятных особенностей графических оценок допущений является то, что они фокусируют внимание на степени нарушения, а не на статистической значимости какого-либо нарушения.

Тем не менее, также можно сосредоточиться на числовых сводках ваших данных, которые количественно определяют степень нарушения допущений, а не статистическую значимость (например, значения асимметрии, значения эксцесса, отношение отклонений от наибольшей к наименьшей групп и т. Д.). Вы также можете получить стандартные ошибки или доверительные интервалы для этих значений, которые будут уменьшаться при увеличении выборки. Эта точка зрения согласуется с общей идеей о том, что статистическая значимость не эквивалентна практической значимости.

Джером англим
источник
1
+1 за отличный ответ, который завершает все. Как применять упомянутые числовые процедуры, хорошо и применимо описано в Табачнике и Fidell's Использование многомерной статистики (для SPSS и SAS): amazon.com/Using-Multivariate-Statistics-Barbara-Tabachnick/dp/… (Но см. Исправления на сопровождаемая веб-страница)
Хенрик
Ну, я думаю, что в большинстве случаев сводные значения, такие как асимметрия и эксцесс, имеют небольшую ценность, их вариация выборки слишком велика. Однако можно было бы рассмотреть возможность их замены на L_skewness и L-kurtosis.
kjetil b halvorsen
@kjetilbhalvorsen Я думаю, это зависит от того, с какими размерами выборки вы обычно работаете. По моему опыту, графики и асимметрия очень полезны для понимания распределения данных.
Джером Энглим
@Jeromy Anglim: ОК. Тогда, я думаю, у вас обычно очень большие размеры выборки! Вы пытались загрузить коэффициенты асимметрии / эксцесса?
kjetil b halvorsen
9

Пара графиков, как правило, будет гораздо более информативной, чем значение p из теста нормальности или гомоскедастичности. График наблюдаемых зависимых переменных против независимых переменных. Сюжетные наблюдения против приступов. График остатков от независимых переменных. Исследуйте все, что выглядит странно на этих графиках. Если что-то не выглядит странным, я не стал бы беспокоиться о значительном тесте предположения.

С. Коласса - Восстановить Монику
источник
Чаще всего это хороший совет, но как насчет больших наборов данных, когда вы не можете реально просмотреть все данные вручную?
дсимча
1
n1n2<ασ2
2
@dsimcha re большие наборы данных: зависит от того, что вы подразумеваете под "большой". Много наблюдений? Используйте хорошую графику (boxplot, jittered dotplots, sunflowerplots). Много независимых переменных? Да, у вас есть точка зрения ... Но если у вас так много IV, что вы не можете построить DV против каждого IV, я бы вообще задал вопрос об использовании ANOVA - похоже, что это может быть трудно интерпретировать в любом кейс. Некоторые интеллектуальные подходы к машинному обучению могут быть лучше (Брайан Д. Рипли: «Если перефразировать провокационно,« машинное обучение - это статистика без всякой проверки моделей и предположений ».)
С. Коласса - Восстановить Монику
Хороший комментарий, +1. Несмотря на то, что этот конкретный вопрос касается ANOVA, я думал на более общем уровне о вопросе графики и тестов, когда писал свой ответ.
дсимча
4

Вот несколько очень хороших веб-руководств для проверки предположений ANOVA и того, что делать в случае неудачи. Вот один. Это другое.

По сути, ваш глаз - лучший судья, поэтому проведите некоторый предварительный анализ данных . Это означает, что график данных - гистограммы и коробчатые графики - хороший способ оценить нормальность и однородность. И помните, что ANOVA устойчив к незначительным нарушениям этих правил.

Thylacoleo
источник
4

Графики QQ - довольно хороший способ обнаружить ненормальность.

Для гомоскедастичности попробуйте тест Левена или тест Брауна-Форсайта. Оба похожи, хотя BF немного более устойчивый. Они менее чувствительны к ненормальности, чем тест Бартлетта, но, тем не менее, я обнаружил, что они не самые надежные при малых размерах выборки.

Сюжет QQ

Тест Брауна-Форсайта

Тест Левена

Кристофер Аден
источник
Графики относительного распределения (или пример, по сравнению с нормальным распределением) могут быть хорошей заменой, поскольку их интерпретация может быть более понятной для начинающих.
kjetil b halvorsen
3

Я согласен с другими, что проверка значимости для предположений проблематична.

Мне нравится иметь дело с этой проблемой, составляя единый график, который раскрывает все допущения модели, необходимые для точной ошибки типа I и низкой ошибки типа II (высокая мощность). Для случая ANOVA с 2 группами (две выборки t-критерия) этот график является нормальной инверсией эмпирической кумулятивной функции распределения (ECDF), стратифицированной по группам (см. Комментарий к графику QQ в предыдущем посте). Для того, чтобы t-тест показал хорошие результаты, две кривые должны быть параллельными прямыми. ДляКПример проблемы ANOVA в целом вы бы имели К параллельные прямые.

Полупараметрические (ранговые) методы, такие как критерии Уилкоксона и Крускала-Уоллиса, делают гораздо меньше предположений. Логит ECDF должен быть параллельным, чтобы тесты Уилкоксона-Крускала-Уоллиса имели максимальную мощность (ошибка типа I никогда не является для них проблемой). Линейность не требуется. Ранговые тесты делают предположения о том, как распределения разных групп связаны с другими, но не делают предположений о форме какого-либо одного распределения.

Фрэнк Харрелл
источник
2
См. Также stats.stackexchange.com/questions/190223/…
Ник Кокс