На странице Википедии в ANOVA перечислены три предположения , а именно:
- Независимость случаев - это предположение модели, которая упрощает статистический анализ.
- Нормальность - распределение остатков нормальное.
- Равенство (или «однородность») дисперсий, называемых гомоскедастичностью ...
Интересным моментом здесь является второе предположение. Несколько источников перечисляют это предположение по-разному. Некоторые говорят о нормальности исходных данных, некоторые утверждают об остатках.
Несколько вопросов всплывают:
- Являются ли нормальность и нормальное распределение остатков одним и тем же человеком (основываясь на записи в Википедии, я бы сказал, что нормальность - это свойство, и оно не относится непосредственно к остаткам (но может быть свойством остатков (глубоко вложенный текст в скобках, причудливый)))?
- если нет, какое предположение следует придерживаться? Один? Обе?
- если предположение о нормально распределенных невязках является правильным, делаем ли мы серьезную ошибку, проверяя только гистограмму необработанных значений на нормальность?
anova
residuals
assumptions
normality-assumption
Роман Луштрик
источник
источник
Ответы:
Давайте предположим, что это модель с фиксированными эффектами . (На самом деле совет не меняется для моделей со случайными эффектами, он становится немного сложнее.)
Нет, нормальность и нормальное распределение остатков не совпадают . Предположим, вы измерили урожайность с урожая с внесением удобрений и без него. На участках без удобрений урожайность варьировалась от 70 до 130. На двух участках с удобрениями урожай варьировался от 470 до 530. Распределение результатов сильно ненормальное: оно сгруппировано в двух местах, связанных с внесением удобрений. Предположим, что в дальнейшем средняя доходность составляет 100 и 500 соответственно. Тогда все остатки колеблются от -30 до +30. Они могут (или не могут) нормально распределяться, но, очевидно, это совершенно другое распределение.
Распределение остатков имеет значение , потому что они отражают случайную часть модели. Также обратите внимание, что значения p вычисляются из статистики F (или t) и зависят от остатков, а не от исходных значений.
Если в данных есть существенные и важные эффекты (как в этом примере), то вы можете сделать «серьезную» ошибку . К счастью, вы могли бы сделать правильное определение: то есть, просмотрев необработанные данные, вы увидите смесь распределений, и это может выглядеть нормально (или нет). Дело в том, что то, что вы ищете, не имеет значения.
Остатки ANOVA не должны быть где-то близко к нормальному, чтобы соответствовать модели. Тем не менее, почти нормальность остатков важна для того, чтобы значения p, вычисленные по F-распределению, были значимыми.
источник
Стандартный Классический односторонний ANOVA можно рассматривать как расширение классического «2-выборочного Т-теста» до «n-выборочного Т-теста». Это видно из сравнения одностороннего ANOVA только с двумя группами с классическим 2-образным T-тестом.
Я думаю, что вас смущает то, что (согласно предположениям модели) остатки и необработанные данные ОБА обычно распределяются. Однако необработанные данные состоят из нормальных распределений с различными средними значениями (если только все эффекты не являются одинаковыми), но с одинаковой дисперсией. Остатки, с другой стороны, имеют такое же нормальное распределение . Это вытекает из третьего предположения о гомоскедастичности.
Это связано с тем, что нормальное распределение можно разложить на среднее и дисперсионные компоненты. Если имеет нормальное распределение со средним значением µ j и дисперсию σ 2 можно записать в виде Y i j = μ j + σ ϵ i j, где ϵ i j имеет стандартное нормальное распределение.Yя ж μJ σ2 Yя ж= μJ+ σεя ж εя ж
источник
источник