Как выполнить t-тест с огромными образцами?

11

У меня есть две популяции, одна с N = 38,704 (количество наблюдений) и другая с N = 1 313 662. Эти наборы данных имеют ~ 25 переменных, все непрерывные. Я взял среднее значение каждого в каждом наборе данных и вычислил статистику теста, используя формулу

t = средняя разница / стандартная ошибка

Проблема в степени свободы. По формуле df = N1 + N2-2 у нас будет больше свободы, чем может обработать таблица. Есть предложения по этому поводу? Как проверить статистику т здесь. Я знаю, что t-тест используется для обработки образцов, но что, если мы применим это к большим образцам.

Аюш Бияни
источник

Ответы:

20

Хл уже упоминал ловушку множественных сравнений при одновременном проведении 25 тестов с одним и тем же набором данных. Простой способ справиться с этим - настроить пороговое значение p, разделив их на количество тестов (в данном случае 25). Более точная формула: Скорректированное значение p = 1 - (1 - значение p) ^ (1 / n). Однако две разные формулы выводят почти одинаковое скорректированное значение p.

Есть еще одна серьезная проблема с вашей проверкой гипотезы. Вы наверняка столкнетесь с ошибкой типа I (ложно-положительной), в результате которой вы обнаружите некоторые действительно тривиальные различия, которые являются чрезвычайно значительными на уровне 99,9999%. Это потому, что когда вы работаете с выборкой такого большого размера (n = 1 316 662), вы получите стандартную ошибку, очень близкую к 0. Это потому, что квадратный корень из 1 313 662 = 1 146. Таким образом, вы разделите стандартное отклонение на 1 146. Короче говоря, вы уловите мелкие различия, которые могут быть совершенно несущественными.

Я бы посоветовал вам отойти от этой схемы тестирования гипотез и вместо этого провести анализ типа Effect Size. В этих рамках мера статистического расстояния является стандартным отклонением. В отличие от стандартной ошибки, стандартное отклонение не уменьшается искусственно от размера выборки. И этот подход даст вам лучшее представление о существенных различиях между вашими наборами данных. Размер эффекта также гораздо более сфокусирован на доверительном интервале вокруг средней средней разницы, который гораздо более информативен, чем проверка гипотезы на статистическую значимость, которая часто вообще не значима. Надеюсь, это поможет.

Sympa
источник
4
+1 для выявления ключевых идей: (1) мы можем гарантировать, что средства будут отличаться, когда наборы данных настолько велики, и (2) некоторый другой анализ, вероятно, будет более уместным и полезным. Но поскольку мы не знаем о цели анализа, мы должны быть осторожны с конкретными рекомендациями.
whuber
Спасибо, Gaetan .. не так ли? Я думаю, что я убираю это из-за того, что стандартное отклонение является лучшей мерой, когда у вас большие образцы, как у меня ... пожалуйста, дайте мне знать, если я что-то пропустил.
Аюш Бияни
1
аюш ... ты прав. Это в основном это. И это потому, что ваша стандартная ошибка станет очень маленькой (из-за большого размера выборки). Это в свою очередь завышает статистическое расстояние между вашей тестовой и контрольной группами. И, в конечном итоге, вы столкнетесь с ошибкой типа I (обнаружите разницу, которая настолько мала, что может оказаться несущественной). Это распространенная проблема при проверке гипотез с большими выборками.
Симпа
14

Т- распределение студента становится все ближе и ближе к стандартному нормальному распределению по мере увеличения степеней свободы. С 1313662 + 38704 - 2 = 1352364 степеней свободы, t- распределение будет неотличимо от стандартного нормального распределения, как видно на рисунке ниже (если, возможно, вы не в очень экстремальных хвостах и ​​вас не интересует отличить абсолютно крошечные p-значения от еще более мелких). Таким образом, вы можете использовать таблицу для стандартного нормального распределения вместо таблицы для t- распределения.

альтернативный текст

универсальный
источник
Ребята, спасибо за ответ. У меня есть данные для анализа. Как мне прикрепить данные к этому. Много, чтобы спросить вас, люди .. Спасибо в ожидании. Ожидая быстрого ответа.
Аюш Бияни
4
А? Вы сказали, что в вопросе вы уже вычислили t-статистику, и chl предоставил пример кода R. Что вы еще хотите? Кстати, я не уверен, что вы имеете право ожидать или запрашивать быстрый ответ; Знаете, нам не платят за это.
OneStop
1
@ayush Для вашего предыдущего вопроса я предоставляю полный ответ на ваш вопрос (ИМХО) - затем я прокомментировал ваши комментарии перед тем, как остановиться, когда я подумал, что вы задаете другой вопрос, который здесь не предназначен для комментариев. , Итак, я бы предложил, чтобы вы либо четко указали, относится ли ваш вопрос к теоретическому рассмотрению или прикладному анализу данных (в последнем случае приведите нам воспроизводимый пример), либо разделили ваши вопросы. Кстати, у вас все еще есть возможность принять ответы, которые вы найдете полезными (опять же, вместо вашего исходного вопроса, а не комментариев, которые следуют).
ЧЛ
2
@ayush Ах, и я просто понимаю, что вы никогда не голосуете ни за один из ответов, которые были вам предоставлены (хотя у вас сейчас достаточно представителей).
ЧЛ
@ chl-- да..даже я осознаю эту мою ошибку и обязательно исправлю это в следующих публикациях .. Спасибо за указание на это .. Посмотрите на меня на несколько дней наивный любитель ..
Аюш Бияни
10

TZNN>30NZ

Просто чтобы быть уверенным, поскольку ваш набор данных включает в себя 25 переменных, вы делаете 25 тестов? Если это так, вам, вероятно, нужно исправить несколько сравнений, чтобы не увеличивать частоту ошибок типа I (см. Соответствующую ветку на этом сайте).

Кстати, программное обеспечение R даст вам нужные значения p, не нужно полагаться на таблицы:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039 
хл
источник