Я узнал, что должен проверять нормальность не на необработанных данных, а на их остатках. Должен ли я рассчитать невязки, а затем пройти тест Шапиро – Вилка?
Рассчитываются остатки как: ?
Пожалуйста, посмотрите этот предыдущий вопрос для моих данных и дизайна.
Ответы:
Почему вы должны проверить на нормальность?
Стандартное допущение в линейной регрессии состоит в том, что теоретические остатки независимы и нормально распределены. Наблюдаемые невязки являются оценкой теоретических невязок, но не являются независимыми (существуют невязки, которые устраняют некоторую зависимость, но все же дают только приближение истинных невязок). Таким образом, проверка наблюдаемых остатков не гарантирует совпадения теоретических остатков.
Если теоретические остатки распределены не совсем нормально, но размер выборки достаточно велик, то Центральная предельная теорема говорит, что обычный вывод (тесты и доверительные интервалы, но не обязательно интервалы прогнозирования), основанные на допущении нормальности, все равно будет приблизительно верным ,
Также обратите внимание, что тесты нормальности являются тестами исключения, они могут сказать вам, что данные вряд ли поступили из нормального распределения. Но если тест несущественный, это не означает, что данные поступили из нормального распределения, это также может означать, что у вас просто недостаточно мощности, чтобы увидеть разницу. Большие размеры выборки дают больше возможностей для обнаружения ненормальности, но большие выборки и CLT означают, что ненормальность наименее важна. Таким образом, для небольших размеров выборки допущение нормальности важно, но тесты не имеют смысла, для больших размеров выборки тесты могут быть более точными, но вопрос точной нормальности становится бессмысленным.
Таким образом, комбинируя все вышеперечисленное, более важным, чем проверка точной нормальности, является понимание науки, лежащей в основе данных, чтобы увидеть, достаточно ли близка популяция к нормальной. Графики типа qqplots могут быть хорошей диагностикой, но также необходимо понимание науки. Если есть опасения, что существует слишком большая асимметрия или потенциал для выбросов, то доступны непараметрические методы, которые не требуют предположения о нормальности.
источник
Гауссовские предположения относятся к остаткам от модели. В отношении исходных данных не требуется никаких предположений. В качестве примера можно привести распределение ежедневных продаж пива. После того, как разумная модель охватила день недели, влияние праздников / событий, сдвиги уровней / тренды времени, мы получаем
источник
Во-первых, вы можете «посмотреть на это», используя QQ-сюжет, чтобы получить общее представление о том, как сгенерировать его в R.
В соответствии с руководством по R вы можете передать свой вектор данных непосредственно в функцию shapiro.test ().
Если вы хотите рассчитать остатки самостоятельно, то да, каждый остаток рассчитывается таким образом по вашему набору наблюдений. Вы можете увидеть больше об этом здесь .
источник