Почему диагностика основана на остатках?
Потому что многие из предположений относятся к условному распределению , а не к его безусловному распределению. Это эквивалентно предположению об ошибках, которое мы оцениваем по остаткам.Y
В простой линейной регрессии часто требуется проверить, выполнены ли определенные допущения, чтобы можно было сделать вывод (например, остатки обычно распределяются).
Фактическое предположение о нормальности не об остатках, а об ошибке. Самое близкое к тем, что у вас есть, это остатки, поэтому мы их проверяем.
Целесообразно ли проверять допущения, проверяя, нормально ли распределены установленные значения?
Нет. Распределение установленных значений зависит от типа . Это совсем немного говорит о предположениях.Икс
Например, я только что выполнил регрессию на смоделированных данных, для которых все предположения были правильно указаны. Например, нормальность ошибок была удовлетворена. Вот что происходит, когда мы пытаемся проверить нормальность подобранных значений:
Они явно ненормальные; на самом деле они выглядят бимодальными. Зачем? Ну, потому что распределение подгоночных значений зависит от структуры . Ошибки были нормальными, но подходящие значения могли быть почти чем угодно.x
Еще одна вещь, которую люди часто проверяют (на самом деле гораздо чаще), это нормальность s ... но безоговорочно по ; опять же, это зависит от структуры s, и поэтому мало что говорит о реальных предположениях. Опять же, я сгенерировал некоторые данные, в которых все предположения верны; вот что происходит, когда мы пытаемся проверить нормальность безусловных значений :х х уyxxy
Опять же, ненормальность, которую мы видим здесь (у - перекос), не связана с условной нормальностью .y
На самом деле, прямо сейчас у меня есть учебник, в котором обсуждается это различие (между условным распределением и безусловным распределением ), то есть в первой главе оно объясняет, почему просто посмотреть на распределение не право а затем в последующих главах неоднократно проверяет нормальность предположение, посмотрев на распределение значений без учета воздействия «s для оценки пригодности предположений (другое дело , как правило , делает это просто смотреть на гистограммы, чтобы сделать эту оценку, но это совсем другая проблема ).y - y - x -Yy−y−x−
Каковы предположения, как мы их проверяем и когда нам нужно их сделать?
В -х можно рассматривать как фиксированные (наблюдаемые без ошибок). Обычно мы не пытаемся проверить это диагностически (но у нас должна быть хорошая идея, правда ли это).x
Соотношение между и в модели задано правильно (например, линейно). Если мы вычтем наиболее подходящую линейную модель, то не должно быть никакой закономерности в отношениях между средним значением невязок и .х хE(Y)xx
Постоянная дисперсия (т. Е. не зависит от . Распределение ошибок является постоянным; это можно проверить, посмотрев на разброс остатков по , или проверив некоторую функцию квадратов невязок по отношению к и проверки изменений среднего значения (например, такие функции, как логарифм или квадратный корень. R использует четвертый корень квадратов невязок).x x xVar(Y|x)xxx
Условная независимость / независимость от ошибок. Определенные формы зависимости могут быть проверены (например, последовательная корреляция). Если вы не можете предвидеть форму зависимости, это немного сложно проверить.
Нормальность условного распределения / нормальность ошибок. Можно проверить, например, выполнив график QQ остатков.Y
(На самом деле есть некоторые другие предположения, которые я не упомянул, такие как аддитивные ошибки, что ошибки имеют нулевое среднее значение и т. Д.)
Если вас интересует только оценка соответствия линии наименьших квадратов, а не, скажем, стандартных ошибок, вам не нужно делать большинство из этих предположений. Например, распределение ошибок влияет на логический вывод (тесты и интервалы), и это может повлиять на эффективность оценки, но линия LS по-прежнему лучше всего линейна, например, несмещенная; поэтому, если распределение не является настолько ненормальным, что все линейные оценки являются плохими, это не обязательно большая проблема, если предположения о члене ошибки не выполняются.