Возможно ли для одностороннего (с группами или «уровнями») ANOVA сообщить о существенной разнице, когда ни один из парных t-тестов не делает?N ( N - 1 ) / 2
В этом ответе @whuber писал:
Хорошо известно, что глобальный тест ANOVA F может обнаружить разницу средних значений даже в тех случаях, когда ни один из индивидуальных [нескорректированных парных] t-тестов ни одной из пар средних не даст значительного результата.
так видимо это возможно, но я не понимаю как. Когда это произойдет и какова будет интуиция в таком случае? Может быть, кто-нибудь может привести простой игрушечный пример такой ситуации?
Некоторые дальнейшие замечания:
Совершенно очевидно обратное: общий ANOVA может быть несущественным, в то время как некоторые из парных t-тестов ошибочно сообщают о значительных различиях (т. Е. Это были бы ложноположительные результаты).
Мой вопрос о стандартных, не скорректированных для множественных сравнений t-тестах. Если используются скорректированные тесты (например, процедура HSD Тьюки), то возможно, что ни один из них не окажется значимым, даже если общий ANOVA таков. Это описано здесь в нескольких вопросах, например, Как я могу получить значительный общий ANOVA, но без существенных парных различий с процедурой Тьюки? и Значительное взаимодействие ANOVA, но несущественные парные сравнения .
Обновить. Мой вопрос первоначально касался обычных парных t-тестов с двумя образцами . Однако, как отметил @whuber в комментариях, в контексте ANOVA t-тесты обычно понимаются как постконфликтные контрасты с использованием оценки ANOVA дисперсии внутри группы, объединенной по всем группам (чего не происходит в двух образец t-теста). Таким образом, на самом деле есть две разные версии моего вопроса, и ответ на оба из них оказывается положительным. Увидеть ниже.
источник
Ответы:
Примечание. Что-то не так с моим исходным примером. Я тупо пойман молчаливым аргументом R об утилизации. Мой новый пример очень похож на мой старый. Надеюсь, сейчас все в порядке.
Вот пример, который я сделал, в котором ANOVA значим на уровне 5%, но ни одно из 6 парных сравнений не является значимым, даже на уровне 5% .
Вот данные:
Вот анова:
Вот два примера p-значений t-критерия (предположение о равной дисперсии):
Если немного больше поработать с групповыми средними значениями или отдельными точками, различие в значимости может быть сделано более поразительным (в том смысле, что я могу сделать первое значение p меньшим, а наименьшее из набора из шести значений p для t-критерия выше). ).
-
Изменить: Вот еще один пример, который изначально был создан с шумом о тренде, который показывает, насколько лучше вы можете сделать, если немного двигать точки:
F имеет значение p ниже 3%, и ни один из t не имеет значения p ниже 8%. (Для примера с 3 группами - но с несколько большим значением p на F - опустите вторую группу)
И вот действительно простой, хотя и более искусственный пример с 3 группами:
(В этом случае наибольшая дисперсия наблюдается в средней группе - но из-за большего размера выборки стандартная ошибка среднего по группе еще меньше)
Множественные сравнения t-тестов
Уабер предложил мне рассмотреть случай множественных сравнений. Это оказывается довольно интересно.
Случай для множественных сравнений (все проводятся на исходном уровне значимости - т.е. без корректировки альфа для множественных сравнений) несколько сложнее реализовать, так как игра с большими и меньшими дисперсиями или большим и меньшим количеством df в разных группах не помогает так же, как они делают с обычными t-тестами с двумя образцами.
Тем не менее, у нас все еще есть инструменты управления количеством групп и уровнем значимости; если мы выберем больше групп и меньшие уровни значимости, то снова будет относительно просто идентифицировать случаи. Вот один из них:
Возьмите восемь групп с . Определите значения в первых четырех группах (2,2,5), а в последних четырех группах (3,5,4) и примите (скажем). Тогда мы имеем значительный F:α = 0,0025Nя= 2 α = 0,0025
Тем не менее, наименьшее значение p в парных сравнениях не является значимым для этого уровня:
источник
Резюме: я считаю, что это возможно, но очень, очень маловероятно. Разница будет небольшой, и если это произойдет, то это потому, что допущение было нарушено (например, гомоскедастичность дисперсии).
Вот некоторый код, который ищет такую возможность. Обратите внимание, что при каждом запуске он увеличивает начальное значение на 1, поэтому начальное число сохраняется (и поиск в начальных значениях является систематическим).
В поисках значимого R2 и никаких незначительных t-тестов я ничего не нашел до семнадцати тысяч. В поисках более низкого значения p в R2, чем в t-тестах, я получаю результат при seed = 323, но разница очень и очень мала. Возможно, что настройка параметров (увеличение количества групп?) Может помочь. Причина, по которой значение p может быть меньше, состоит в том, что при вычислении стандартной ошибки для параметров в регрессии все группы объединяются, поэтому стандартная ошибка разности потенциально меньше, чем в t-критерии.
Я задавался вопросом, может ли помочь нарушение гетероскедастичности (как бы). Оно делает. Если я использую
Чтобы сгенерировать y, я нахожу подходящий результат при seed = 1889, где минимальное значение p из t-тестов равно 0,061, а значение p, связанное с R-квадратом, равно 0,046.
Если я изменю размеры группы (что увеличивает эффект нарушения гетероскедастичности), заменив x выборку на:
Я получаю значительный результат при seed = 531, с минимальным p-значением t-критерия 0,063 и p-значением для R2 0,046.
Если я перестану исправлять гетероскедастичность в t-тесте, используя:
Мой вывод заключается в том, что это вряд ли произойдет, и разница, вероятно, будет очень небольшой, если вы не нарушили предположение о гомоскедастичности в регрессии. Попробуйте провести анализ с помощью надежного / сэндвича / как хотите, чтобы это называлось коррекцией.
источник
Это вполне возможно:
Общий тест F тестирует все контрасты одновременно . Как таковой, он должен быть менее чувствительным (с меньшей статистической мощностью) к отдельным контрастам (например, парный тест). Эти два теста тесно связаны друг с другом, но они не сообщают совершенно одно и то же.
Как вы можете видеть, рекомендация из учебника не проводить запланированные сравнения, если общий F-тест не является значимым, не всегда верна. На самом деле, рекомендация может помешать нам найти существенные различия, потому что общий F-тест имеет меньшую мощность, чем запланированные сравнения для тестирования конкретных различий.
источник