ANOVA предположение нормальность / нормальное распределение остатков

52

На странице Википедии в ANOVA перечислены три предположения , а именно:

  • Независимость случаев - это предположение модели, которая упрощает статистический анализ.
  • Нормальность - распределение остатков нормальное.
  • Равенство (или «однородность») дисперсий, называемых гомоскедастичностью ...

Интересным моментом здесь является второе предположение. Несколько источников перечисляют это предположение по-разному. Некоторые говорят о нормальности исходных данных, некоторые утверждают об остатках.

Несколько вопросов всплывают:

  • Являются ли нормальность и нормальное распределение остатков одним и тем же человеком (основываясь на записи в Википедии, я бы сказал, что нормальность - это свойство, и оно не относится непосредственно к остаткам (но может быть свойством остатков (глубоко вложенный текст в скобках, причудливый)))?
  • если нет, какое предположение следует придерживаться? Один? Обе?
  • если предположение о нормально распределенных невязках является правильным, делаем ли мы серьезную ошибку, проверяя только гистограмму необработанных значений на нормальность?
Роман Луштрик
источник
Вы можете в значительной степени игнорировать любые другие источники, которые говорят, что если они утверждают, что необработанные данные должны быть нормально распределены. А кто сказал "мы", так или иначе проверял только необработанные значения с помощью гистограмм. Вы в одном из этих классов Шесть Сигма ???
DWin
1
@Andy W: Я только что добавил ссылку на то, что, кажется, соответствует разделу статьи Википедии об ANOVA.
OneStop
@DWin: blog.markanthonylawson.com/?p=296 (извините, совершенно не по теме , но не удержалась)
OneStop
@onetop спасибо. Я просил ссылку только потому, что я ленивый и не хотел сам искать ANOVA в Википедии, а не потому, что это важно для вопроса.
Энди В.
Связанный вопрос здесь: что-если-остатки-обычно-распределены-но-у-нет .
gung - Восстановить Монику

Ответы:

35

Давайте предположим, что это модель с фиксированными эффектами . (На самом деле совет не меняется для моделей со случайными эффектами, он становится немного сложнее.)

  1. Нет, нормальность и нормальное распределение остатков не совпадают . Предположим, вы измерили урожайность с урожая с внесением удобрений и без него. На участках без удобрений урожайность варьировалась от 70 до 130. На двух участках с удобрениями урожай варьировался от 470 до 530. Распределение результатов сильно ненормальное: оно сгруппировано в двух местах, связанных с внесением удобрений. Предположим, что в дальнейшем средняя доходность составляет 100 и 500 соответственно. Тогда все остатки колеблются от -30 до +30. Они могут (или не могут) нормально распределяться, но, очевидно, это совершенно другое распределение.

  2. Распределение остатков имеет значение , потому что они отражают случайную часть модели. Также обратите внимание, что значения p вычисляются из статистики F (или t) и зависят от остатков, а не от исходных значений.

  3. Если в данных есть существенные и важные эффекты (как в этом примере), то вы можете сделать «серьезную» ошибку . К счастью, вы могли бы сделать правильное определение: то есть, просмотрев необработанные данные, вы увидите смесь распределений, и это может выглядеть нормально (или нет). Дело в том, что то, что вы ищете, не имеет значения.

Остатки ANOVA не должны быть где-то близко к нормальному, чтобы соответствовать модели. Тем не менее, почти нормальность остатков важна для того, чтобы значения p, вычисленные по F-распределению, были значимыми.

Whuber
источник
6
Я думаю, что есть важные моменты, которые нужно добавить: в ANOVA нормальность в каждой группе (а не в целом) эквивалентна нормальности остатков.
Анико
2
@Aniko Не могли бы вы уточнить, что вы подразумеваете под «эквивалентом» в своем комментарии? Почти тавтологично, что нормальность внутри группы такая же, как нормальность остатков этой группы, но неверно, что нормальность отдельно в каждой группе подразумевает (или подразумевается) нормальность остатков.
whuber
7
Я действительно имел в виду тавтологический смысл: если группы нормальные, то остатки нормальные. Обратное верно только в том случае, если добавлена ​​гомоскедентность (как в ANOVA). Я не хочу выступать за проверку групп, а не остатков, но я думаю, что это является основной причиной различных формулировок предположений.
Анико
2
Я заметил, что люди, делающие ANOVA, обычно интересуются вычислением p-значений, и, следовательно, для них важна нормальность невязок. Есть ли какие-либо общие причины для подбора модели ANOVA, если мы не заинтересованы в вычислении p-значений из F-распределения? Извиняюсь, если этот вопрос слишком широк для комментария.
user1205901 - Восстановить Монику
3
@ user1205901 Это очень хороший момент. Два распространенных применения ANOVA, которые не основаны на F-тесте: (1) это удобный способ получения оценок эффекта и (2) его неотъемлемая часть для расчета отклонений.
whuber
8

Стандартный Классический односторонний ANOVA можно рассматривать как расширение классического «2-выборочного Т-теста» до «n-выборочного Т-теста». Это видно из сравнения одностороннего ANOVA только с двумя группами с классическим 2-образным T-тестом.

Я думаю, что вас смущает то, что (согласно предположениям модели) остатки и необработанные данные ОБА обычно распределяются. Однако необработанные данные состоят из нормальных распределений с различными средними значениями (если только все эффекты не являются одинаковыми), но с одинаковой дисперсией. Остатки, с другой стороны, имеют такое же нормальное распределение . Это вытекает из третьего предположения о гомоскедастичности.

Это связано с тем, что нормальное распределение можно разложить на среднее и дисперсионные компоненты. Если имеет нормальное распределение со средним значением µ j и дисперсию σ 2 можно записать в виде Y i j = μ j + σ ϵ i j, где ϵ i j имеет стандартное нормальное распределение.YяJμJσ2YяJзнак равноμJ+σεяJεяJ

εяJ

YяJ

probabilityislogic
источник
1
+1 за указание (в последнем абзаце) на предположение о гомоскедастичности.
whuber
Означает ли это, что если мы допустим сравнение, скажем, n зависимых групп, нам нужно отдельно проверить их остатки (в результате получим n групп остатков)?
Стан
5

пNJFзнак равноSSб/dебSSвес/dевес

SSбзнак равноΣJзнак равно1пNJ(M-MJ)2

SSвесзнак равноΣJзнак равно1пΣязнак равно1NJ(YяJ-MJ)2

FFSSб/dебSSвес/dевесχ2dебdевесSSбSSвес0M-MJYяJ-MJ

Yя(J)-MJYзнак равноμJ+εзнак равноμ+αJ+εYя(J)-MYзнак равноμ+εM-MJ

ЧАС0MYя(J)-MJM-MJ

каракал
источник
2
SSχ2MJзнак равноMJYяJ-MJMJ-M
@onestop Отредактировано, чтобы отразить ваши разъяснения, спасибо!
Каракал