При достаточно большом размере выборки тест всегда будет показывать значительный результат, если только истинный размер эффекта не равен нулю. Зачем?

21

Мне любопытно заявление, сделанное в статье Википедии о размере эффекта . В частности:

[...] статистическое сравнение, не равное нулю, всегда будет показывать статистически значимые результаты, если только величина эффекта совокупности не равна нулю

Я не уверен, что это означает / подразумевает, не говоря уже о аргументе, чтобы поддержать это. Я думаю, в конце концов, эффект - это статистика, то есть значение, рассчитанное по выборке с собственным распределением. Означает ли это, что эффекты никогда не происходят из-за случайного отклонения (что, как я понимаю, означает быть незначительным)? Тогда рассмотрим ли мы достаточно сильный эффект - имеющий высокое абсолютное значение?

Я рассматриваю эффект, с которым я наиболее знаком: коэффициент корреляции Пирсона r, кажется, противоречит этому. Почему любой бы статистически значимым? Если мало, наша линия регрессии ry = a x + b = r ( s yr

y=ax+b=r(sysx)=ϵx+b

Для small, близкого к 0, F-тест, скорее всего, будет содержать доверительный интервал, содержащий 0 для наклона. Разве это не контрпример?ϵ

Гэри
источник
10
Подсказка: пункт перед цитируемой вами частью является существенным. « Учитывая достаточно большой размер выборки , ненулевое статистическое сравнение всегда показывает статистически значимые результаты , если размер популяционного эффекта не точно равен нуль ...»
Kodiologist
@Kodiologist: Но, на мой пример, будет ли это означать, что если бы размер выборки был больше, то и сам r был бы больше, или, по крайней мере, выражение было бы больше, если бы размер выборки был больше? Я этого не вижу r(sy/sx)
Гари
5
Если это не так, это будет недостатком статистического метода. Если , конечно, какой-то размер выборки достаточно велик, чтобы обнаружить разницу. μ>μ0
Джон Колман

Ответы:

26

В качестве простого примера, предположим, что я оцениваю ваш рост, используя какой-то статистический тупик.

Вы всегда говорили другим, что вы 177 см (около 5 футов 10 дюймов).

Если бы я , чтобы проверить эту гипотезу (что ваш рост равен 177 см, ), и я мог бы уменьшить ошибку в моем измерении достаточно, то я мог бы доказать , что вы не на самом деле 177 см. В конце концов, если я оценю ваш рост до достаточно десятичных знаков, вы почти наверняка отклонитесь от заявленной высоты 177,00000000 см. Возможно, вы 177,02 см; Мне нужно только уменьшить свою ошибку до менее чем 0,02, чтобы узнать, что вы не 177 см.h=177

Как уменьшить ошибку в статистике? Получите больший образец. Если вы получаете достаточно большую выборку, ошибка становится настолько маленькой, что вы можете обнаружить самые незначительные отклонения от нулевой гипотезы.

Underminer
источник
2
Это очень четкое и краткое объяснение. Вероятно, это более полезно для понимания, почему это происходит, чем более математические ответы. Отлично сработано.
Никому
1
Приятно объяснил, но я думаю, что также важно учитывать, что есть случаи, в которых заявленное значение является действительно точным. Например, если оставить в стороне странные вещи, которые происходят в теории струн и т. Д., Измерение количества пространственных измерений нашей вселенной (что можно сделать) даст 3, и независимо от того, насколько точно вы выполните это измерение, вы будете никогда не находите статистически значимых отклонений от 3. Конечно, если вы продолжите тестирование достаточно много раз, вы получите некоторые отклонения просто из-за отклонений, но это другая проблема.
Дэвид З
Вероятно, наивный вопрос, но если я утверждаю, что я 177 см, разве концепция значащих цифр не означает, что я говорю только, что я между 176,5 и 177,5? Ответ, кажется, дает хорошую теоретическую концепцию, правда, но разве он не основан на ложной предпосылке? Что мне не хватает?
JimLohse
В этом случае заявленная высота 177 аналогична нулевой гипотезе в статистике. В традиционной проверке гипотез на равенство вы делаете утверждение равенства (например, ). Дело в том, что независимо от того, какой у вас рост, я могу опровергнуть его, уменьшив ошибку, если нулевая гипотеза не является ТОЧНО верной. Я использовал рост в качестве простого для понимания примера, но эта концепция та же самая в других областях (вещество х не вызывает рака, эта монета справедлива и т. Д.)μ=177
Подрыватель
13

Как отмечает @Kodiologist, речь идет о том, что происходит с большими объемами выборки. Для небольших размеров выборки нет причин, по которым у вас не может быть ложных или ложных отрицательных результатов.

Я думаю, что тест делает асимптотический случай более ясным. Предположим, у нас есть и мы хотим проверить против . Наша тестовая статистика X 1 , , X n iid N ( μ , 1 ) H 0 : μ = 0 H A : μ 0 Z n = ˉ X n - 0ZИкс1,...,ИксN~н.о.р.N(μ,1)ЧАС0:μзнак равно0ЧАСA:μ0

ZNзнак равноИкс¯N-01/Nзнак равноNИкс¯N,

Zn=Икс¯N~N(μ,1N) поэтому . Нас интересует . Пусть будет нашей ссылочной переменной. При мы имеем поэтому мы можем выбрать для контроля частоты ошибок типа I по желанию , Но под так P(|Zn|α)P(|Zn|α)=P(Zn-α)+P(Znα)=1+Φ(-α-μZNзнак равноNИкс¯N~N(μN,1)п(|ZN|α)

п(|ZN|α)знак равноп(ZN-α)+п(ZNα)
YN(0,1)H0μ=0P(|Zn|α)=1-P(-αYα)αHAμ
знак равно1+Φ(-α-μN)-Φ(α-μN),
Y~N(0,1)ЧАС0 μзнак равно0п(|ZN|α)знак равно1-п(-αYα)αЧАСA P(|Zn|α)1+Φ(±)-Φ(±)=1H0μ0±μ<0μN0
P(|ZN|α)1+Φ(±)-Φ(±)знак равно1
поэтому с вероятностью 1 мы если (the в случае , но в любом случае бесконечности имеют одинаковый знак).ЧАС0μ0±μ<0

Дело в том, что если точности равно то наша тестовая статистика имеет эталонное распределение, и мы отклоним 5% (или что мы выберем) времени. Но если не точно , то вероятность того, что мы отклоним заголовки до при увеличении . Идея здесь заключается в непротиворечивости теста, который заключается в том, что при мощность (вероятность отклонения) до при .0 μ 0 1 n H A 1 n μ 0μ01NЧАСA1N

Это точно такая же история со статистикой теста для проверки против с коэффициентом корреляции Пирсона. Если нулевая гипотеза неверна, то наша тестовая статистика становится все более и более вероятной, поэтому вероятность, которую мы отвергнем, приближается к .H A : ρ ρ 0 1ЧАС0:ρзнак равноρ0ЧАСA:ρρ01

JLD
источник
1
Nitpick: если , то будет расходиться в вместо , верно? μ<0ZN-
Кодиолог
1
Хорошо, но то, что происходит в случае должно зависеть от того, будет ли «быстрее», чем , верно? Я даже не уверен, как бы вы «сравнили» скорость сходимости для последовательности случайных величин и последовательности целых чисел - возможно, следует применить теорему Слуцкого или что-то подобное. μзнак равно0Икс¯п0N
DeltaIV
1
@DeltaIV, верно, если бы скорость сходимости была разной, нужно было бы другое масштабирование, чтобы получить невырожденное нулевое распределение. Но для данного примера root-n - это правильная скорость.
Кристоф Ханк
1
NИкс¯ сходится к стандартному нормальному по CLT, а не к . 0
парень
7

Возможно, то, что они сказали , неверно, если не по какой-либо другой причине, кроме их использования «это всегда происходит».

Я не знаю, в этом ли суть вашей путаницы , но я опубликую ее, потому что я думаю, что многие это понимают и будут смущены этим:

« случается, если достаточно велико»ИксN , НЕ означает «Если , то ».N>N0Икс

Скорее это означает .limnPr(X)=1

То, что они буквально говорят, означает следующее:

Для любого размера выборки превышающего некоторый минимальный размер , результат любого ненулевого теста гарантированно будет значимым, если истинный размер эффекта не точно равен нулю.nn0

Однако они пытались сказать следующее:

Для любого уровня значимости при увеличении размера выборки вероятность того, что ненулевой тест даст значимый результат, приближается к 1, если истинный размер эффекта не является точно нулевым.

Здесь есть принципиальные различия:

  • Там нет гарантии. Вы только с большей вероятностью получите значительный результат с большей выборкой. Теперь, они могли бы избежать части вины, потому что пока это просто вопрос терминологии. В вероятностном контексте будет понятно , что утверждение «если п достаточно велико , то X» может также интерпретироваться как «X становится все более и более вероятно , чтобы быть правдой , как п растет большой» .
    Тем не менее, эта интерпретация выходит из моего окна, как только они говорят, что это всегда происходит. Надлежащей терминологией здесь было бы сказать, что это происходит « с высокой вероятностью » 1 .

  • Это вторично, но их формулировка вводит в заблуждение - кажется, подразумевается, что вы устанавливаете размер выборки как «достаточно большой», и тогда утверждение верно для любого уровня значимости. Однако, независимо от того, что является точным математическим утверждением, это не имеет смысла: сначала вы всегда устанавливаете уровень значимости, а затем выбираете размер выборки, который будет достаточно большим.
    Но предположение , что это может быть как - то наоборот , к сожалению , подчеркивает интерпретация «достаточно большой», так что делает вышеуказанную проблему еще хуже.n>n0

Но как только вы понимаете литературу, вы получаете то, что они пытаются сказать.

(Примечание: между прочим, это как раз одна из постоянных проблем, с которыми сталкиваются многие люди из Википедии. Зачастую, понять, о чем они говорят, можно только в том случае, если вы уже знаете материал, поэтому это полезно только для справки или напоминания. , а не как материал для самообучения.)

1 Для коллег-педантов (привет!) Да, этот термин имеет более конкретное значение, чем тот, с которым я связан. Самый свободный технический термин, который мы, вероятно, хотим здесь, это «почти асимптотически почти наверняка» . Смотрите здесь .

Mehrdad
источник
«вероятность того, что ненулевой тест даст значимый результат, приближается к 0, если истинный размер эффекта равен нулю», может быть не совсем правильным: если тест имеет уровень значимости тогда вероятность получения значимого результата может быть или около того на всех размерах выборкиαα
Генри
@ Генри: О, стреляй, ты прав! Я написал это так быстро, что не переставал думать. Благодаря тонну! Я исправил это. :)
Mehrdad
3

Мой любимый пример - количество пальцев по полу. Подавляющее большинство людей имеют 10 пальцев. Некоторые потеряли пальцы из-за несчастных случаев. У некоторых есть дополнительные пальцы.

Я не знаю, больше ли у мужчин пальцев, чем у женщин (в среднем). Все легко доступные данные свидетельствуют о том, что у мужчин и женщин по 10 пальцев.

Тем не менее, я очень уверен, что если бы я провел перепись всех мужчин и всех женщин, то я бы узнал, что у одного пола больше пальцев (в среднем), чем у другого.

Эмери
источник