Предположим следующую ситуацию:
у нас есть большое количество (например, 20) с небольшим размером группы (например, n = 3). Я заметил, что если я сгенерирую значения из равномерного распределения, остатки будут выглядеть примерно нормально, даже если распределение ошибок будет равномерным. Следующий код R демонстрирует это поведение:
n.group = 200
n.per.group = 3
x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)
Если я посмотрю на остаток выборки в группе из трех, причина поведения ясна:
Поскольку является суммой случайных величин с примерно не отличающимся стандартным отклонением, его распределение немного ближе к нормальному распределению, чем отдельные члены.
Теперь предположим, что у меня такая же ситуация с реальными данными вместо симулированных данных. Я хочу оценить, соответствуют ли предположения ANOVA нормальности. В большинстве рекомендуемых процедур рекомендуется визуальный осмотр остатков (например, QQ-Plot) или проверка нормальности остатков. Как мой пример выше, это не совсем оптимально для небольших групп.
Есть ли лучшая альтернатива, когда у меня много групп небольших размеров?
Ответы:
Работа над этим ответом не полностью завершена. У меня есть некоторое понимание этого, но это требует времени, чтобы объяснить. Для этого давайте рассмотрим, что стандартное отклонение смещено для небольших чисел. Причина этого заключается в том, что если мы возьмем любые два числа , мы произвольно назначим среднее значение выборки как , где среднее значение совокупности, , вполне может быть где угодно на интервал между или это может быть или . Это означает, что в среднем . Таким образом, только когда , это смещение становится небольшимa<b a+b2 σ (a,b) σ<a σ>b SD<σ n>100 , Для длинных серий SD для небольшого числа образцов каждая, вычисление SD становится более точным и, более очевидно, неточным.
Теперь вместо того, чтобы расстраивать руки, мы можем применить коррекцию малого числа для наших SD при нормальных условиях. (Ха! Есть решение нашего несчастья.)
E[μ]SD(n)μ(n)=2n−1−−−√Γ(n2)Γ(n−12)=1−14n−732n2−19128n3+O(n−4) см.E[μ]
Для это . . Это означает, что мы должны разделить нашу SD на столько, чтобы оценить .Γ ( 3n=3 σΓ(32)=π√2≈0.8862269255 σ
Теперь в случае, если вы представите, у вас есть несколько других вещей, происходящих также. Как это бывает, лучшая мера местоположения равномерного распределения не среднее. Хотя и среднее значение выборки, и медиана выборки являются несмещенными оценками средней точки, ни одна из них не так эффективна, как средняя выборка, т. Е. Среднее арифметическое максимума выборки и минимума выборки, которое является несмещенной оценкой минимума дисперсии UMVU. оценка средней точки (а также оценка максимального правдоподобия).
Теперь к сути дела. Если вы используете среднее значение экстремальных значений, дисперсия меры местоположения будет меньше при условии, что ваши данные распределены по-настоящему равномерно. Это может быть нормально распределено, потому что один хвост экстремального значения вполне может быть нормальным. Однако только с 3 выборками стандартное отклонение нуждается в коррекции.
источник