Вступление: отметив внимание, которое получил сегодня этот вопрос: « Может ли ANOVA быть значимым, если ни один из парных t-тестов не является? », Я подумал, что смогу перефразировать его интересным способом, который заслуживает своего собственного набора ответов. ,
Различные несоответствующие результаты (по номинальной стоимости) могут иметь место, когда статистическая значимость понимается как простая дихотомия и оценивается только на основе того, что выше, или . Ответ @ Glen_b на вышеуказанный вопрос представляет собой полезный пример случая, когда:
- тест ANOVA дает для одной независимой переменной (IV) с четырьмя уровнями, но
- для всех тестов сдвумявыборками, которые сравнивают различия в одной и той же зависимой переменной (DV) среди наблюдений, соответствующих каждой паре четырех уровней IV.
Похожий случай возник, несмотря на поправки Бонферрони для специальных парных сравнений с помощью этого вопроса: повторные измерения Ановы значимы, но все множественные сравнения с поправкой Бонферрони не являются? Ранее упоминавшиеся случаи с несколько иным тестом множественной регрессии также существуют:
- Почему можно получить значительную статистику F (p <.001), но не значимые t-тесты регрессора? :
- Как регрессия может быть значимой, но все предикторы могут быть несущественными?
- В @ whuber - х ответ ,
Держу пари , что в подобных случаях, некоторые (но не все) попарные сравнения (или коэффициентов регрессии критерии значимости) значения должны быть достаточно близки к , если соответствующий Омнибус тест может достичь . Я вижу, что это имеет место в первом примере @ Glen_b, где , , а наибольшая попарная разница дает наименьшее . Должно ли это быть в общем случае? Более конкретно :
Вопрос: Если ANOVA тест производит для одного политомного эффекта IV на непрерывном DV, как высоко может быть самое низкое значение среди всех тестов двух выборок, которые сравнивают каждую пару уровней IV? Может ли минимальное попарное значение быть таким высоким, как ?
Я приветствую ответы, которые касаются только этого конкретного вопроса . Однако, чтобы еще больше мотивировать этот вопрос, я разработаю и добавлю некоторые потенциально риторические вопросы. Не стесняйтесь решать и эти проблемы, и даже игнорировать конкретный вопрос, если хотите, особенно если на конкретный вопрос получен окончательный ответ.
Значимость: подумайте, насколько менее важной будет разница между a и a p t = .06 , если бы статистическая значимость оценивалась непрерывно с точки зрения силы доказательств против нулевой гипотезы (я думаю, что подход Рона Фишера? ), а не в дихотомических терминах, как выше или ниже порогового значения α = 0,05 для приемлемой вероятности ошибки при выборе, следует ли отклонять нулевую оптовую продажу. « р- хакинг » - известная проблема, которая отчасти обязана своей известностью излишней уязвимости, представленной интерпретацией рзначения в соответствии с обычной практикой дихотомизации значимости в эквивалентах «достаточно хорошо» и «недостаточно хорошо». Если бы кто-то выбрал эту практику и сосредоточился вместо этого на интерпретации значений как силы доказательств против нуля на непрерывном интервале, может ли комплексное тестирование быть несколько менее важным, если действительно заботятся о множественных парных сравнениях? Не обязательно бесполезно, поскольку любое разумно эффективное улучшение статистической точности, конечно, желательно, но ... если, например, наименьшее значение p для парного сравнения обязательно находится в пределах .10 от ANOVA (или другого сводного теста) pзначение, разве это не делает омнибусный тест несколько более тривиальным, менее обязательным и даже более вводящим в заблуждение (в сочетании с существовавшим ранее недоразумением), особенно если не требуется особо контролировать в нескольких тестах?
И наоборот, если данные могут существовать таким образом, что омнибус , но все попарно p > .50 , разве это не должно мотивировать омнибус и контрастное тестирование на протяжении всей практики и педагогики? Мне кажется, что эта проблема должна также проинформировать об относительных достоинствах оценки статистической значимости в соответствии с дихотомией по сравнению с континуумом, поскольку дихотомическая интерпретирующая система должна быть более чувствительной к небольшим корректировкам, когда различия «незначительно значимы», тогда как ни одна из этих систем является безопасным с невыполнения теста омнибуса или настроить для множественных сравнений , если эта разница / регулировка может быть очень большой (например, р т - р F > в теории.
Другие дополнительные сложности, которые следует учитывать или игнорировать - все, что делает ответ более простым и более полезным :
- Как высоко S для т s может быть , если, F , р < 0,05 вместо (например, р = 0,01 , 0,001 , ... )
- Чувствительность к числу уровней в политоме IV
- Чувствительность к неравномерности в значении парных различий (при всех )
- Ответ Уубера указывает на то, что включение небольших различий может маскировать большие различия.
- Различия между исправлениями различных омнибус-тестов для множественных сравнений
- Смотрите также: Исправление для множественных сравнений в пределах предметов / повторных измерений ANOVA; чрезмерно консервативный?
- С многократными IV, кажется, мультиколлинеарность может усугубить эту проблему .
- Ограниченные случаи, когда данные оптимально соответствуют всем предположениям классических параметрических тестов
- Это ограничение может быть важно, чтобы этот вопрос не был спорным.
Ответы:
Предполагая равные s [но см. Примечание 2 ниже] для каждой обработки в одностороннем формате, и что объединенная SD из всех групп используется в t- тестах (как это делается в обычных сравнительных оценках), максимально возможный Значение p для t- теста составляет 2 Φ ( - √n t p t (здесьΦобозначаетN(0,1)cdf). Таким образом, ниртне может быть столь же высокимкак0,5. Интересно (и довольно причудливо), то0,1573связаны справедливо не только длярF=.05, нодля любого уровня значимости мы требуем дляF.2Φ(−2–√)≈.1573 Φ N(0,1) pt 0.5 .1573 pF=.05 F
Обоснование таково: для данного диапазона выборочных средних , наибольшая возможный F статистика достигается , когда половина ˉ у я нахожусь на одном полюсе , а другая половине находятся на другом. Это представляет случай, когда F выглядит наиболее значимым, учитывая, что два средних отличаются не более чем на 2 a .maxi,j|y¯i−y¯j|=2a F y¯i F 2a
Итак, без ограничения общности, предположим, что так что ˉ y i = ± a в этом граничном случае. И снова, без потери общности, предположим, что M S E = 1 , так как мы всегда можем масштабировать данные до этого значения. Теперь рассмотрим k означает (где k даже для простоты [но см. Примечание 1 ниже]), мы имеем F = ∑ n ˉ y 2 / ( k - 1 )y¯.=0 y¯i=±a MSE=1 k k . ПолагаяpF=αтак, чтоF=Fα=Fα,k-1,k(n-1), получаемa=√F=∑ny¯2/(k−1)MSE=kna2k−1 pF=α F=Fα=Fα,k−1,k(n−1) . Когда всеˉyiравны±a(и все ещеMSE=1), каждая ненулеваяtстатистика, таким образом, равнаt=2a.a=(k−1)Fαkn−−−−−−√ y¯i ±a MSE=1 t t=2a12/n√=2(k−1)Fαk−−−−−−√ . This is the smallest maximum t value possible when F=Fα .
Таким образом, вы можете просто попробовать разные случаи и n , вычислить t и связанный с ним p t . Но обратите внимание , что при заданном к , F α убывает в п [но смотри примечание 3 ниже]; кроме того, как п → ∞ , ( K - 1 ) F & alpha ; , к - 1 , к ( п - 1 ) → х 2 α , K - 1 ; так т ≥k n t pt k Fα n n→∞ (k−1)Fα,k−1,k(n−1)→χ2α,k−1 t≥tmin=2χ2α,k−1/k−−−−−−−−√ . Note that χ2/k=k−1kχ2/(k−1) has mean k−1k and SDk−1k⋅2k−1−−−√ . So limk→∞tmin=2–√ , regardless of α , and the result I stated in the first paragraph above is obtained from asymptotic normality.
It takes a long time to reach that limit, though. Here are the results (computed usingk , using α=.05 :
R
) for various values ofA few loose ends...
источник