У меня есть некоторые данные, которые выглядят из графика зависимости остатков от времени почти нормально, но я хочу быть уверен. Как я могу проверить нормальность ошибок?
20
У меня есть некоторые данные, которые выглядят из графика зависимости остатков от времени почти нормально, но я хочу быть уверен. Как я могу проверить нормальность ошибок?
Ответы:
Ни один тест не скажет вам, что ваши остатки обычно распределяются. На самом деле можно с уверенностью поспорить, что это не так .
Проверка гипотез, как правило, не является хорошей идеей, поскольку проверка ваших предположений. Эффект ненормальности на ваших умозаключениях обычно не зависит от размера выборки *, но результат теста значимости является . Небольшое отклонение от нормальности будет очевидно при большом размере выборки, даже если ответ на вопрос о реальном интересе («в какой степени это повлияло на мои выводы?») Может быть «едва ли вообще». Соответственно, большое отклонение от нормы при небольшом размере выборки может не приблизиться к значимости.
* (добавлено в редактировании) - на самом деле это слишком слабое утверждение. Влияние ненормальности фактически уменьшается с размером выборки практически в любое время, когда CLT и теорема Слуцкого будут выполняться, в то время как способность отклонять нормальность (и, по-видимому, избегать процедур с нормальной теорией) возрастает с размером выборки ... так просто, когда вы в наибольшей степени способны идентифицировать ненормальность, как правило, когда это не имеет значения † в любом случае ... и тест не помогает, когда он действительно имеет значение, в небольших выборках.†
Что ближе к измерению величины эффекта, так это некоторая диагностика (отображение или статистика), которая каким-то образом измеряет степень ненормальности. График QQ является очевидным отображением, и график QQ для одной и той же совокупности при одном размере выборки и при другом размере выборки представляют собой, по меньшей мере, обе оценки с шумом одной и той же кривой - демонстрирующие примерно одинаковую «ненормальность»; оно должно быть, по крайней мере, приблизительно монотонно связано с желаемым ответом на интересующий вопрос.
Если вам нужно использовать тест, Shapiro-Wilk, вероятно, примерно так же хорош, как и все остальное (тест Chen-Shapiro обычно немного лучше на альтернативах, представляющих общий интерес, но труднее найти реализации), но он отвечает на вопрос, который вы уже знаю ответ на; каждый раз, когда вы не можете отказаться, он дает ответ, который вы можете быть уверены, что это неправильно.
источник
Тест Шапиро-Уилка - одна из возможностей.
Тест Шапиро-Вилка
Этот тест реализован практически во всех статистических программных пакетах. Нулевая гипотеза состоит в том, что остатки обычно распределены, поэтому небольшое значение p указывает, что вы должны отклонить нулевое значение и сделать вывод, что остатки обычно не распределены.
Обратите внимание, что если размер вашей выборки велик, вы почти всегда отклоняете ее, поэтому визуализация остатков важнее.
источник
Из википедии:
Тесты одномерной нормальности включают в себя критерий К-квадрата Д'Агостино, тест Жарка-Бера, тест Андерсона-Дарлинга, критерий Крамера-фон Мизеса, критерий Лилифорса для нормальности (сам по себе является адаптацией теста Колмогорова-Смирнова), Критерий Шапиро – Вилка, критерий хи-квадрат Пирсона и критерий Шапиро-Франсия. В статье 2011 года, опубликованной в «Журнале статистического моделирования и аналитики» [1], делается вывод о том, что Шапиро-Уилк обладает наилучшей силой для данного значения, а за ним внимательно следят Андерсон-Дарлинг при сравнении Шапиро-Уилка, Колмогорова-Смирнова, Лиллифорса и Андерсона. Дорогая тесты.
источник