Почему диагностика основана на остатках?

11

В простой линейной регрессии часто требуется проверить, выполнены ли определенные допущения, чтобы можно было сделать вывод (например, остатки обычно распределяются).

Целесообразно ли проверять допущения, проверяя, нормально ли распределены установленные значения?

bdeonovic
источник

Ответы:

19

Почему диагностика основана на остатках?

Потому что многие из предположений относятся к условному распределению , а не к его безусловному распределению. Это эквивалентно предположению об ошибках, которое мы оцениваем по остаткам.Y

В простой линейной регрессии часто требуется проверить, выполнены ли определенные допущения, чтобы можно было сделать вывод (например, остатки обычно распределяются).

Фактическое предположение о нормальности не об остатках, а об ошибке. Самое близкое к тем, что у вас есть, это остатки, поэтому мы их проверяем.

Целесообразно ли проверять допущения, проверяя, нормально ли распределены установленные значения?

Нет. Распределение установленных значений зависит от типа . Это совсем немного говорит о предположениях.x

Например, я только что выполнил регрессию на смоделированных данных, для которых все предположения были правильно указаны. Например, нормальность ошибок была удовлетворена. Вот что происходит, когда мы пытаемся проверить нормальность подобранных значений:

диагностика нормальности на оборудовании

Они явно ненормальные; на самом деле они выглядят бимодальными. Зачем? Ну, потому что распределение подгоночных значений зависит от структуры . Ошибки были нормальными, но подходящие значения могли быть почти чем угодно.x

Еще одна вещь, которую люди часто проверяют (на самом деле гораздо чаще), это нормальность s ... но безоговорочно по ; опять же, это зависит от структуры s, и поэтому мало что говорит о реальных предположениях. Опять же, я сгенерировал некоторые данные, в которых все предположения верны; вот что происходит, когда мы пытаемся проверить нормальность безусловных значений :х х уyxxy

диагностика нормальности по необработанным значениям y

Опять же, ненормальность, которую мы видим здесь (у - перекос), не связана с условной нормальностью .y

На самом деле, прямо сейчас у меня есть учебник, в котором обсуждается это различие (между условным распределением и безусловным распределением ), то есть в первой главе оно объясняет, почему просто посмотреть на распределение не право а затем в последующих главах неоднократно проверяет нормальность предположение, посмотрев на распределение значений без учета воздействия «s для оценки пригодности предположений (другое дело , как правило , делает это просто смотреть на гистограммы, чтобы сделать эту оценку, но это совсем другая проблема ).y - y - x -Yyyx


Каковы предположения, как мы их проверяем и когда нам нужно их сделать?

  • В -х можно рассматривать как фиксированные (наблюдаемые без ошибок). Обычно мы не пытаемся проверить это диагностически (но у нас должна быть хорошая идея, правда ли это).x

  • Соотношение между и в модели задано правильно (например, линейно). Если мы вычтем наиболее подходящую линейную модель, то не должно быть никакой закономерности в отношениях между средним значением невязок и .х хE(Y)xx

  • Постоянная дисперсия (т. Е. не зависит от . Распределение ошибок является постоянным; это можно проверить, посмотрев на разброс остатков по , или проверив некоторую функцию квадратов невязок по отношению к и проверки изменений среднего значения (например, такие функции, как логарифм или квадратный корень. R использует четвертый корень квадратов невязок).x x xVar(Y|x)xxx

  • Условная независимость / независимость от ошибок. Определенные формы зависимости могут быть проверены (например, последовательная корреляция). Если вы не можете предвидеть форму зависимости, это немного сложно проверить.

  • Нормальность условного распределения / нормальность ошибок. Можно проверить, например, выполнив график QQ остатков.Y

(На самом деле есть некоторые другие предположения, которые я не упомянул, такие как аддитивные ошибки, что ошибки имеют нулевое среднее значение и т. Д.)

Если вас интересует только оценка соответствия линии наименьших квадратов, а не, скажем, стандартных ошибок, вам не нужно делать большинство из этих предположений. Например, распределение ошибок влияет на логический вывод (тесты и интервалы), и это может повлиять на эффективность оценки, но линия LS по-прежнему лучше всего линейна, например, несмещенная; поэтому, если распределение не является настолько ненормальным, что все линейные оценки являются плохими, это не обязательно большая проблема, если предположения о члене ошибки не выполняются.

Glen_b - Восстановить Монику
источник
Я добавил несколько диаграмм в свой ответ.
Glen_b
2
Это отличный ответ. Если вы хотите больше, я расскажу здесь о схожей территории: что если остатки нормально распределены, а Y - нет?
gung - Восстановить Монику
@ Gung Я пинаю себя за то, что не связался с этим первым.
Glen_b
1
@ Глен: Очень хороший нрав. У меня долгое время была такая же путаница из-за не очень хорошей трактовки этой темы в учебниках и почти во многих ресурсах в Интернете. С другой стороны, безусловное распределение Y почти всегда исследуется, чтобы вывести модель для условного распределения, особенно в контексте временных рядов. Есть ли теоретическое обоснование этого? Я пытался задать его как вопрос, но думаю, что не смог сформулировать
Cagdas Ozgenc
@CagdasOzgenc Единственная причина, по которой я могу это сделать - это то, что это легко сделать до того, как у вас появится модель. Ответ, который вы получили на этот связанный вопрос, выглядел как хороший ответ для меня, когда он был опубликован.
Glen_b