Распределение ваших данных не должно быть нормальным, это выборочное распределение , которое должно быть почти нормальным. Если размер вашей выборки достаточно велик, то из-за Центральной предельной теоремы распределение выборки средних значений из распределения Ландау должно быть почти нормальным .
Это означает, что вы должны быть в состоянии безопасно использовать t-тест со своими данными.
пример
Давайте рассмотрим этот пример: предположим, у нас есть популяция с логнормальным распределением с mu = 0 и sd = 0.5 (это выглядит немного похоже на Ландау)
Таким образом, мы выбираем 30 наблюдений 5000 раз из этого распределения каждый раз, вычисляя среднее значение выборки
И это то, что мы получаем
Выглядит вполне нормально, не так ли? Если мы увеличим размер выборки, это станет еще более очевидным
Код R
x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')
n = 30
m = 1000
set.seed(0)
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
n = 300
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
В основном, независимый t-критерий или t-критерий с двумя образцами используется для проверки, значительно ли средние значения для двух образцов. Или, другими словами, если между двумя образцами есть существенная разница.
Теперь средствами этих двух выборок являются две статистики, которые согласно CLT имеют нормальное распределение, если предоставлено достаточно выборок. Обратите внимание, что CLT работает независимо от распределения, из которого строится средняя статистика.
Обычно можно использовать z-критерий, но если отклонения оцениваются по выборке (поскольку она неизвестна), вводится некоторая дополнительная неопределенность, которая включается в t-распределение. Вот почему 2-образный t-критерий применяется здесь.
источник