Это не вопрос строго статистики - я могу прочитать все учебники о предположениях ANOVA - я пытаюсь выяснить, как фактические работающие аналитики обрабатывают данные, которые не совсем соответствуют предположениям. Я просмотрел множество вопросов на этом сайте в поисках ответов, и я продолжаю находить посты о том, когда не следует использовать ANOVA (в абстрактном, идеализированном математическом контексте) или как делать некоторые вещи, которые я описываю ниже в R. I Я действительно пытаюсь выяснить, какие решения люди на самом деле принимают и почему.
Я провожу анализ сгруппированных данных от деревьев (фактических деревьев, а не статистических деревьев) в четырех группах. У меня есть данные для около 35 атрибутов для каждого дерева, и я просматриваю каждый атрибут, чтобы определить, значительно ли отличаются группы по этому атрибуту. Однако в нескольких случаях предположения ANOVA слегка нарушаются, потому что отклонения не равны (согласно тесту Левена с использованием альфа = 0,05).
На мой взгляд, у меня есть следующие варианты: 1. Преобразовать данные в мощность и посмотреть, не изменит ли это значение Левена. 2. Используйте непараметрический тест, такой как Уилкоксон (если да, то какой?). 3. Есть ли какая-то коррекция результата ANOVA, например, Bonferroni (на самом деле я не уверен, существует ли что-то подобное?). Я попробовал первые два варианта и получил немного разные результаты - в некоторых случаях один подход важен, а другой нет. Я боюсь попасть в ловушку с p-значением и ищу совет, который поможет мне обосновать, какой подход использовать.
Я также читал некоторые вещи, которые предполагают, что гетероскедастичность на самом деле не такая уж большая проблема для ANOVA, если только средние значения и дисперсии не коррелированы (т.е. они оба увеличиваются вместе), поэтому, возможно, я могу просто проигнорировать результат Левена, если я не увижу шаблон как этот? Если да, есть ли тест для этого?
Наконец, я должен добавить, что я делаю этот анализ для публикации в рецензируемом журнале, поэтому любой подход, на котором я остановлюсь, должен быть проверен рецензентами. Так что, если кто-то может предоставить ссылки на похожие, опубликованные примеры, это было бы фантастически
источник
R
, вам может быть полезно прочитать мой ответ здесь: Альтернативы одностороннему ANOVA для гетероскедастических данных , в котором обсуждаются некоторые из этих проблем.Ответы:
Это зависит от моих потребностей, какие предположения нарушаются, каким образом, насколько сильно, насколько это влияет на вывод, а иногда и на размер выборки.
1) Если размеры выборки равны, у вас нет особых проблем. ANOVA достаточно (на уровне) устойчива к различным дисперсиям, если n равны.
2) проверка равенства дисперсии, прежде чем решить, следует ли предположить, что это рекомендуется в ряде исследований. Если вы действительно сомневаетесь, что они будут близки к равным, лучше просто предположить, что они неравны.
Некоторые ссылки:
Циммерман, DW (2004),
«Записка о предварительных проверках равенства дисперсий».
Br. J. Math. Стат. Psychol. , Май ; 57 (часть 1): 173-81.
http://www.ncbi.nlm.nih.gov/pubmed/15171807
Хенрик дает три ссылки здесь
3) Важен размер эффекта, а не то, достаточно ли велика ваша выборка, чтобы сказать вам, что они существенно отличаются. Таким образом, в больших выборках небольшая разница в дисперсии покажется очень высокой по тесту Левена, но, по сути, не окажет значительного влияния. Если выборки велики, а размер эффекта - отношение отклонений или различий - достаточно близок к тому, чем они должны быть, то значение p не имеет значения. (С другой стороны, в небольших выборках хорошее большое значение p мало утешительно. В любом случае тест не отвечает на правильный вопрос.)
Обратите внимание, что есть корректировка типа Уэлча-Саттертвейта для оценки остаточной стандартной ошибки и df в ANOVA, так же как и в t-тестах с двумя выборками.
Если вы заинтересованы в альтернативах смещения местоположения, вы по-прежнему предполагаете постоянный спред. Если вы заинтересованы в гораздо более общих альтернативах, вы, возможно, подумаете об этом; k-образцом, эквивалентным критерию Уилкоксона, является критерий Крускала-Уоллиса.
Посмотрите мое предположение о рассмотрении Welch-Satterthwaite, это «своего рода исправление».
(В качестве альтернативы вы можете разыграть свой ANOVA как набор попарных t-тестов типа Уэлча, и в этом случае вы, вероятно, захотите взглянуть на Bonferroni или что-то подобное)
Вы должны были бы процитировать что-то подобное. Посмотрев на ряд ситуаций с t-тестами, я не думаю, что это явно так, поэтому я хотел бы понять, почему они так думают; возможно, ситуация каким-то образом ограничена. Было бы хорошо, если бы это было так, потому что довольно часто обобщенные линейные модели могут помочь в этой ситуации.
Очень сложно предсказать, что может удовлетворить ваших рецензентов. Большинство из нас не работают с деревьями.
источник
На самом деле не очень сложно справиться с гетероскедастичностью в простых линейных моделях (например, в одно- или двухсторонних моделях, подобных ANOVA).
Надежность ANOVA
Во-первых, как отмечают другие, ANOVA удивительно устойчив к отклонениям от предположения о равных отклонениях, особенно если у вас есть приблизительно сбалансированные данные (равное количество наблюдений в каждой группе). Предварительные тесты на равные отклонения, с другой стороны, не являются (хотя тест Левена намного лучше, чем F- тест, обычно преподаемый в учебниках). Как сказал Джордж Бокс:
Несмотря на то, что ANOVA очень устойчив, поскольку очень легко учитывать гетероскедатичность, нет особых причин не делать этого.
Непараметрические тесты
Если вы действительно заинтересованы в различиях в средствах , непараметрические тесты (например, тест Крускала-Уоллиса) действительно бесполезны. Они проверяют различия между группами, но не в целом проверяют различия в средствах.
Пример данных
Давайте сгенерируем простой пример данных, где хотелось бы использовать ANOVA, но где предположение о равных отклонениях неверно.
У нас есть три группы, с (явными) различиями как по средним, так и по отклонениям:
ANOVA
Не удивительно, что нормальный ANOVA справляется с этим довольно хорошо:
Итак, какие группы отличаются? Давайте использовать метод HSD Тьюки:
При значении P, равном 0,26, мы не можем претендовать на какую-либо разницу (по средним показателям) между группами A и B. И даже если мы не учтем, что провели три сравнения, мы не получим низкий уровень P - значение ( P = 0,12):
Это почему? На основе сюжета, есть это довольно четкое различие. Причина в том, что ANOVA предполагает равные отклонения в каждой группе и оценивает общее стандартное отклонение в 2,77 (показано как «Остаточная стандартная ошибка» в
summary.lm
таблице, или вы можете получить его, взяв квадратный корень из остаточного среднего квадрата (7,66) в таблице ANOVA).Но в группе А стандартное отклонение (население) равно 1, а завышение в 2,77 затрудняет (без необходимости) получение статистически значимых результатов, т. Е. У нас есть тест с (слишком) низким энергопотреблением.
'ANOVA' с неравными отклонениями
Итак, как подобрать подходящую модель, которая учитывает различия в отклонениях? Это легко в R:
Итак, если вы хотите запустить простой односторонний ANOVA в R, не допуская равных отклонений, используйте эту функцию. Это в основном расширение (Уэлч)
t.test()
для двух образцов с неравными отклонениями.К сожалению, он не работает с
TukeyHSD()
(или большинство других функций , которые вы используете наaov
объекты), так что даже если мы уверены , что там есть групповые различия, мы не знаем , где они находятся.Моделирование гетероскедастичности
Лучшее решение состоит в том, чтобы моделировать дисперсии явно. И это очень легко в R:
Разумеется, все еще существенные различия. Но теперь различия между группами A и B также стали статически значимыми ( P = 0,025):
Так что использование соответствующей модели помогает! Также обратите внимание, что мы получаем оценки (относительных) стандартных отклонений. Расчетное стандартное отклонение для группы A можно найти в нижней части, результаты, 1,02. Расчетное стандартное отклонение группы B в 2,44 раза больше, или 2,48, а расчетное стандартное отклонение группы C аналогично составляет 3,97 (введите
intervals(mod.gls)
доверительные интервалы для относительных стандартных отклонений групп B и C).Исправление для многократного тестирования
Тем не менее, мы действительно должны исправить для многократного тестирования. Это легко с помощью библиотеки 'multcomp'. К сожалению, в нем нет встроенной поддержки объектов 'gls', поэтому сначала нам нужно добавить несколько вспомогательных функций:
Теперь давайте приступим к работе:
Все еще статистически значимая разница между группой А и группой В! ☺ И мы можем даже получить (одновременные) доверительные интервалы для различий между групповыми средствами:
Используя приблизительно (здесь точно) правильную модель, мы можем доверять этим результатам!
Обратите внимание, что для этого простого примера данные для группы C на самом деле не добавляют никакой информации о различиях между группами A и B, поскольку мы моделируем как отдельные средние, так и стандартные отклонения для каждой группы. Мы могли бы просто использовать попарные t- тесты, исправленные для нескольких сравнений:
Однако для более сложных моделей, например, двусторонних моделей или линейных моделей с множеством предикторов, использование GLS (обобщенных наименьших квадратов) и явное моделирование функций дисперсии является лучшим решением.
И функция дисперсии не обязательно должна быть отдельной константой в каждой группе; мы можем наложить структуру на это. Например, мы можем смоделировать дисперсию как степень среднего значения каждой группы (и, следовательно, нужно оценить только один параметр, показатель степени) или, возможно, как логарифм одного из предикторов в модели. Все это очень легко с GLS (и
gls()
в R).Обобщенные наименьшие квадраты - ИМХО очень недоиспользуемая методика статистического моделирования. Вместо того, чтобы беспокоиться об отклонениях от модельных предположений, смоделируйте эти отклонения!
источник
В действительности ваши данные могут быть преобразованы в приемлемо нормальное распределение. Конечно, теперь вы делаете вывод о преобразованных данных, а не о преобразованных данных.
Предполагая, что вы говорите об одностороннем ANOVA, тест Крускала-Уоллиса является подходящим непараметрическим аналогом одностороннего ANOVA. Тест Данны (не тест разнообразие сада суммы рангов), пожалуй, самый распространенный непараметрический тест подходит для постфактум множественных сравнений парных, хотя существует и другие тесты , такие как Коновер-Иман тест (строго более мощный , чем тест Данны после отказа Крускала-Уоллиса) и тест Дваса-Стила-Крайтлоу-Флингера.
Процедуры множественных сравнений (будь то семейное отклонение частоты ошибок или ложное обнаружение частоты ) на самом деле не имеют прямого отношения к вашим конкретным предположениям теста (например, нормальность данных), скорее они имеют отношение к значениюα (готовность ложно отвергнуть нулевую гипотезу), учитывая, что вы выполняете несколько тестов.
ANOVA основан на соотношении внутри группы и между групповыми отклонениями. Я не совсем уверен, что вы подразумеваете под гетероскедастичностью в этом контексте, но если вы имеете в виду неравные различия между группами, мне кажется, что это в корне нарушает логику нулевой гипотезы теста.
Простой запрос Google Scholar для «теста Данна» вместе с общим термином из вашей дисциплины должен вернуть множество опубликованных примеров.
Ссылки
Коновер, WJ и Иман, RL (1979). О процедурах множественных сравнений . Технический отчет LA-7677-MS, Лос-Аламосская научная лаборатория.
Crichtlow, DE и Fligner, MA (1991). О множественных сравнениях без распределения в одностороннем дисперсионном анализе . Коммуникации в статистике - теория и методы 20 (1): 127.
Данн, О.Дж. (1964). Многократные сравнения с использованием ранговых сумм . Technometrics , 6 (3): 241–252.
источник
Для меня это звучит так, как будто вы выполняете работу и стараетесь изо всех сил, но беспокоитесь, что ваши усилия не будут достаточно хороши, чтобы пройти мимо рецензентов. Очень реальная проблема. Я думаю, что все исследователи борются с анализами, которые время от времени кажутся пограничными или даже откровенно нарушающими предположения. В конце концов, миллионы статей оценивают, например, эффекты лечения у 3 маленьких групп мышей с примерно 6-7 мышами в каждой группе. Как узнать, удовлетворяются ли предположения Anova в такой статье!
Я просмотрел большое количество статей, особенно в области сердечно-сосудистой патофизиологии, и на самом деле никогда не чувствую себя на 100% уверенным, могу ли я доверять данным или нет в статье, которую я читаю. Но для меня , как рецензент, я на самом деле , как правило, считают , что проблемы могут возникнуть в так многих уровнях науки, что, вероятно, нет смысла слишком глубоко копаться в статистике - в конце концов, весь набор данных может быть сфабрикован, и я бы никогда через миллион лет сможет рассказать. Соответственно, в этой области работы всегда будет элемент доверия, который исследователи никогда не должны злоупотреблять.
Самое реальное предложение, которое я хотел бы дать, это то, что вам нужно очень тщательно все продумать, прежде чем вы отправите заявку, и убедитесь, что вы сможете правдиво ответить на любые вопросы, заданные рецензентами. Пока вы сделали все возможное, ваши намерения честны и вы хорошо спите ночью, я думаю, что вы должны быть в порядке.
источник