Насколько меньшими могут быть значения

13

Вступление: отметив внимание, которое получил сегодня этот вопрос: « Может ли ANOVA быть значимым, если ни один из парных t-тестов не является? », Я подумал, что смогу перефразировать его интересным способом, который заслуживает своего собственного набора ответов. ,

Различные несоответствующие результаты (по номинальной стоимости) могут иметь место, когда статистическая значимость понимается как простая дихотомия и оценивается только на основе того, что выше, p или α . Ответ @ Glen_b на вышеуказанный вопрос представляет собой полезный пример случая, когда:

  • F тест ANOVA дает pF<.05 для одной независимой переменной (IV) с четырьмя уровнями, но
  • pt>.08 для всехt тестов сдвумявыборками, которые сравнивают различия в одной и той же зависимой переменной (DV) среди наблюдений, соответствующих каждой паре четырех уровней IV.

Похожий случай возник, несмотря на поправки Бонферрони для специальных парных сравнений с помощью этого вопроса: повторные измерения Ановы значимы, но все множественные сравнения с поправкой Бонферрони не являются? Ранее упоминавшиеся случаи с несколько иным тестом множественной регрессии также существуют:

Держу пари , что в подобных случаях, некоторые (но не все) попарные сравнения (или коэффициентов регрессии критерии значимости) p значения должны быть достаточно близки к α , если соответствующий Омнибус тест может достичь p<α . Я вижу, что это имеет место в первом примере @ Glen_b, где F(3,20)=3.19 , pF=.046 , а наибольшая попарная разница дает наименьшее pt=.054 . Должно ли это быть в общем случае? Более конкретно :


Вопрос: Если ANOVA F тест производит pF=.05 для одного политомного эффекта IV на непрерывном DV, как высоко может быть самое низкое значение p среди всех t тестов двух выборок, которые сравнивают каждую пару уровней IV? Может ли минимальное попарное значение быть таким высоким, как pt=.50 ?


Я приветствую ответы, которые касаются только этого конкретного вопроса . Однако, чтобы еще больше мотивировать этот вопрос, я разработаю и добавлю некоторые потенциально риторические вопросы. Не стесняйтесь решать и эти проблемы, и даже игнорировать конкретный вопрос, если хотите, особенно если на конкретный вопрос получен окончательный ответ.

Значимость: подумайте, насколько менее важной будет разница между a и a p t = .06 , если бы статистическая значимость оценивалась непрерывно с точки зрения силы доказательств против нулевой гипотезы (я думаю, что подход Рона Фишера? ), а не в дихотомических терминах, как выше или ниже порогового значения α = 0,05 для приемлемой вероятности ошибки при выборе, следует ли отклонять нулевую оптовую продажу. « р- хакинг » - известная проблема, которая отчасти обязана своей известностью излишней уязвимости, представленной интерпретацией рpF=.04pt=.06α=.05ppзначения в соответствии с обычной практикой дихотомизации значимости в эквивалентах «достаточно хорошо» и «недостаточно хорошо». Если бы кто-то выбрал эту практику и сосредоточился вместо этого на интерпретации значений как силы доказательств против нуля на непрерывном интервале, может ли комплексное тестирование быть несколько менее важным, если действительно заботятся о множественных парных сравнениях? Не обязательно бесполезно, поскольку любое разумно эффективное улучшение статистической точности, конечно, желательно, но ... если, например, наименьшее значение p для парного сравнения обязательно находится в пределах .10 от ANOVA (или другого сводного теста) ppp.10pзначение, разве это не делает омнибусный тест несколько более тривиальным, менее обязательным и даже более вводящим в заблуждение (в сочетании с существовавшим ранее недоразумением), особенно если не требуется особо контролировать в нескольких тестах?α

И наоборот, если данные могут существовать таким образом, что омнибус , но все попарно p > .50 , разве это не должно мотивировать омнибус и контрастное тестирование на протяжении всей практики и педагогики? Мне кажется, что эта проблема должна также проинформировать об относительных достоинствах оценки статистической значимости в соответствии с дихотомией по сравнению с континуумом, поскольку дихотомическая интерпретирующая система должна быть более чувствительной к небольшим корректировкам, когда различия «незначительно значимы», тогда как ни одна из этих систем является безопасным с невыполнения теста омнибуса или настроить для множественных сравнений , если эта разница / регулировка может быть очень большой (например, р т - р F >p=.05p>.50 в теории.ptpF>.40)

Другие дополнительные сложности, которые следует учитывать или игнорировать - все, что делает ответ более простым и более полезным :

Ник Стаунер
источник
1
Возможно, вы захотите уточнить, должны ли парные t-тесты использовать ту же оценку дисперсии ошибок, что и универсальный F-тест (в примере Глена они этого не делают).
Scortchi - Восстановить Монику
1
Я имел в виду обычную Т-тест для разности средних значений с использованием , но ссграссчитывается как квадратный корень из среднего квадрата ошибки ANOVAR. Это обычный пост-hoc парный t-тест,который неучитывает множественные сравнения, в отличие от HSD Тьюки. Он включает в себя информацию из всех групп, но не зависит от различий в групповых средствах. t=(y¯1y¯2)/(σ^1n1+1n2)σ^
Scortchi - Восстановить Монику
1
Я вижу (вроде)! В первую очередь, мне было бы интересно следовать примеру @ Glen_b и не использовать , но используя первую формулу, которую вы упомянули, чтобы избежать включения информации из всех групп. Это не значит, что у меня есть сильное предпочтение здесь ... но часть моего первоначального намерения состояла в том, чтобы представить вариант общей темы в этих вопросах: «Какой реальный вред в игнорировании информации за пределами двух конкретных групп для любой данной тест из двух образцов среди многих? Я полагаю, что в этом решении стоит заняться темой. MSE
Ник Стаунер
1
@Scortchi Я включил пример в другой вопрос, который охватывает ваш первый комментарий (т. Е. Где тесты выполняются с использованием общей дисперсии ошибок и df), хотя все тесты (F и множественные сравнения) проводятся с довольно низким уровнем значимости (0,0025, а не 0,05). По сравнению с индивидуальными обычными t-тестами из двух выборок, которые здесь задает Ник С., это показывает, что возможна довольно существенная разница в значимости (в этом случае для всех обычных t-тестов все же р F < 0,002 ). Я верю, что со многими группами можно пойти гораздо дальше. pt>.05pF<0.002
Glen_b
1
Я набросал ответ на первую часть этого вопроса несколько минут назад в комментарии на stats.stackexchange.com/questions/83030/… .
whuber

Ответы:

8

Предполагая равные s [но см. Примечание 2 ниже] для каждой обработки в одностороннем формате, и что объединенная SD из всех групп используется в t- тестах (как это делается в обычных сравнительных оценках), максимально возможный Значение p для t- теста составляет 2 Φ ( - ntpt(здесьΦобозначаетN(0,1)cdf). Таким образом, ниртне может быть столь же высокимкак0,5. Интересно (и довольно причудливо), то0,1573связаны справедливо не только длярF=.05, нодля любого уровня значимости мы требуем дляF.2Φ(2).1573ΦN(0,1)pt0.5.1573pF=.05F

Обоснование таково: для данного диапазона выборочных средних , наибольшая возможный F статистика достигается , когда половина ˉ у я нахожусь на одном полюсе , а другая половине находятся на другом. Это представляет случай, когда F выглядит наиболее значимым, учитывая, что два средних отличаются не более чем на 2 a .maxi,j|y¯iy¯j|=2aFy¯iF2a

Итак, без ограничения общности, предположим, что так что ˉ y i = ± a в этом граничном случае. И снова, без потери общности, предположим, что M S E = 1 , так как мы всегда можем масштабировать данные до этого значения. Теперь рассмотрим k означает (где k даже для простоты [но см. Примечание 1 ниже]), мы имеем F = n ˉ y 2 / ( k - 1 )y¯.=0y¯i=±aMSE=1kk . ПолагаяpF=αтак, чтоF=Fα=Fα,k-1,k(n-1), получаемa=F=ny¯2/(k1)MSE=kna2k1pF=αF=Fα=Fα,k1,k(n1) . Когда всеˉyiравны±a(и все ещеMSE=1), каждая ненулеваяtстатистика, таким образом, равнаt=2a.a=(k1)Fαkny¯i±aMSE=1tt=2a12/n=2(k1)Fαk. This is the smallest maximum t value possible when F=Fα.

Таким образом, вы можете просто попробовать разные случаи и n , вычислить t и связанный с ним p t . Но обратите внимание , что при заданном к , F α убывает в п [но смотри примечание 3 ниже]; кроме того, как п , ( K - 1 ) F & alpha ; , к - 1 , к ( п - 1 )х 2 α , K - 1 ; так т kntptkFαnn(k1)Fα,k1,k(n1)χα,k12ttmin=2χα,k12/k. Note that χ2/k=k1kχ2/(k1) has mean k1k and SDk1k2k1. So limktmin=2, regardless of α, and the result I stated in the first paragraph above is obtained from asymptotic normality.

It takes a long time to reach that limit, though. Here are the results (computed using R) for various values of k, using α=.05:

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

A few loose ends...

  1. When k is odd: The maximum F statistic still occurs when the y¯i are all ±a; however, we will have one more at one end of the range than the other, making the mean ±a/k, and you can show that the factor k in the F statistic is replaced by k1k. This also replaces the denominator of t, making it slightly larger and hence decreasing pt.
  2. Unequal ns: The maximum F is still achieved with the y¯i=±a, with the signs arranged to balance the sample sizes as nearly equally as possible. Then the F statistic for the same total sample size N=ni will be the same or smaller than it is for balanced data. Moreover, the maximum t statistic will be larger because it will be the one with the largest ni. So we can't obtain larger pt values by looking at unbalanced cases.
  3. A slight correction: I was so focused on trying to find the minimum t that I overlooked the fact that we are trying to maximize pt, and it is less obvious that a larger t with fewer df won't be less significant than a smaller one with more df. However, I verified that this is the case by computing the values for n=2,3,4, until the df are high enough to make little difference. For the case α=.05,k3 I did not see any cases where the pt values did not increase with n. Note that the df=k(n1) so the possible df are k,2k,3k, which get large fast when k is large. So I'm still on safe ground with the claim above. I also tested α=.25, and the only case I observed where the .1573 threshold was exceeded was k=3,n=2.
Russ Lenth
источник