Бывший коллега однажды сказал мне следующее:
Обычно мы применяем тесты нормальности к результатам процессов, которые при нулевом значении генерируют случайные переменные, которые являются только асимптотически или почти нормальными (с «асимптотически» частью, зависящей от некоторой величины, которую мы не можем сделать большой); В эпоху дешевой памяти, больших данных и быстрых процессоров тесты нормальности всегда должны отклонять нулевое нормальное распределение для больших (хотя и не безумно больших) выборок. И наоборот, тесты на нормальность следует использовать только для небольших выборок, когда они предположительно имеют меньшую мощность и меньший контроль над скоростью I типа.
Это действительный аргумент? Это известный аргумент? Существуют ли хорошо известные тесты для «более размытой» нулевой гипотезы, чем нормальность?
источник
Ответы:
Это не аргумент. Это (довольно строго) факт, что формальные тесты нормальности всегда отвергают огромные размеры выборок, с которыми мы работаем сегодня. Даже легко доказать, что когда n становится большим, даже самое маленькое отклонение от идеальной нормальности приведет к значительному результату. И поскольку каждый набор данных имеет некоторую степень случайности, ни один набор данных не будет идеально нормально распределенной выборкой. Но в прикладной статистике вопрос не в том, являются ли данные / остатки ... совершенно нормальными, но достаточно нормальными для выполнения предположений.
Позвольте мне проиллюстрировать это тестом Шапиро-Уилка . Приведенный ниже код создает набор распределений, которые приближаются к нормальности, но не являются полностью нормальными. Далее мы проверяем
shapiro.test
, отклоняется ли выборка из этих почти нормальных распределений от нормальности. В R:Последняя строка проверяет, какая часть симуляций для каждого размера выборки значительно отклоняется от нормы. Так, в 87% случаев выборка из 5000 наблюдений значительно отклоняется от нормы по Шапиро-Уилксу. Тем не менее, если вы видите графики qq, вы никогда не выберете отклонение от нормы. Ниже вы видите в качестве примера qq-графики для одного набора случайных выборок.
с р-значениями
источник
R
реализации). Но это все - это не имеет никакого отношения к полезности тестирования нормальности в целом. Первоначальное утверждение о том, что тесты нормальности всегда отклоняются на больших объемах выборки, просто неверно.Размышляя о том, является ли тестирование нормальности «по существу бесполезным», сначала нужно подумать о том, для чего он должен быть полезен. Многие люди (ну ... по крайней мере, многие ученые) неправильно понимают вопрос, на который отвечает тест на нормальность.
Тесты нормальности вопроса отвечают: есть ли убедительные доказательства любого отклонения от гауссовского идеала? С умеренно большими реальными наборами данных ответ почти всегда да.
Ученые часто задают вопрос, на который ответит тест нормальности: достаточно ли отклоняются данные от гауссовского идеала, чтобы «запретить» использование теста, предполагающего гауссово распределение? Ученые часто хотят, чтобы тест на нормальность был тем судьей, который решает, когда следует отказаться от обычных (ANOVA и т. Д.) Тестов и вместо этого проанализировать преобразованные данные или использовать непараметрический тест на основе рангов или метод повторной выборки или начальной загрузки. Для этого тесты нормальности не очень полезны.
источник
Я думаю, что тесты на нормальность могут быть полезны в качестве дополнения к графическим экзаменам. Они должны быть использованы правильно, хотя. По моему мнению, это означает, что многие популярные тесты, такие как тесты Шапиро-Уилка, Андерсона-Дарлинга и Жар-Бера, никогда не должны использоваться.
Прежде чем я объясню свою точку зрения, позвольте мне сделать несколько замечаний:
(В моем определении) тест на нормальность направлен против класса альтернатив, если он чувствителен к альтернативам из этого класса, но не чувствителен к альтернативам из других классов. Типичными примерами являются тесты, направленные на перекос или куртотические альтернативы. Простейшие примеры используют асимметрию выборки и эксцесс в качестве статистики теста.
Направленные тесты нормальности, вероятно, часто предпочтительнее, чем омнибусные тесты (такие как тесты Шапиро-Уилка и Жарке-Бера), поскольку обычно для некоторых процедур логического вывода важны только некоторые типы ненормальностей .
Давайте рассмотрим t-критерий Стьюдента в качестве примера. Предположим, что у нас есть iid-образец из дистрибутива с асимметрией и (избыточным) эксцессомЕсли симметричен относительно своего среднего значения, . И и равны 0 для нормального распределения.γ=E(X−μ)3σ3 κ=E(X−μ)4σ4−3. X γ=0 γ κ
При предположениях регулярности мы получаем следующее асимптотическое разложение для cdf тестовой статистики :Tn P(Tn≤x)=Φ(x)+n−1/216γ(2x2+1)ϕ(x)−n−1x(112κ(x2−3)−118γ2(x4+2x2−3)−14(x2+3))ϕ(x)+o(n−1),
где - это cdf, а - это pdf стандартного нормального распределения.Φ(⋅) ϕ(⋅)
С помощью моделирования можно проверить, что это верно и для малых . Таким образом, t-критерий Стьюдента чувствителен к асимметрии, но относительно устойчив к тяжелым хвостам, и разумно использовать критерий нормальности, направленный на асимметрию альтернатив, до применения t-теста .n
Как правило ( не закон природы), вывод о средствах чувствителен к асимметрии, а вывод о дисперсиях чувствителен к эксцессу.
Использование направленного теста на нормальность имеет преимущество в получении большей силы против «опасных» альтернатив и меньшей мощности против менее «опасных» альтернатив, а это означает, что мы с меньшей вероятностью отклоним нормальность из-за отклонений от нормальности, которые выиграли не влияет на производительность нашей логической процедуры. Ненормальность количественно определяется таким образом, который имеет отношение к рассматриваемой проблеме. Это не всегда легко сделать графически.
По мере того как становится больше, асимметрия и эксцесс становятся менее важными - и направленные тесты, вероятно, обнаружат, отклоняются ли эти величины от 0 даже на небольшую величину. В таких случаях представляется разумным, например, проверить, является ли или (глядя на первое слагаемое раскрытия выше) а не . Это решает некоторые проблемы, с которыми мы в противном случае сталкиваемся, когда становится больше.n |γ|≤1 |n−1/216γ(2z2α/2+1)ϕ(zα/2)|≤0.01 γ=0 n
источник
ИМХО тесты на нормальность абсолютно бесполезны по следующим причинам:
Для небольших выборок существует высокая вероятность того, что истинное распределение популяции существенно ненормально, но тест нормальности не является достаточным для его выявления.
На больших выборках такие вещи, как T-тест и ANOVA, довольно устойчивы к ненормальности.
Вся идея нормально распределенной популяции - это просто удобное математическое приближение. Ни одна из величин, которые обычно рассматриваются статистически, не может иметь правдоподобных распределений с поддержкой всех действительных чисел. Например, люди не могут иметь отрицательный рост. Нечто не может иметь отрицательную массу или большую массу, чем во вселенной. Таким образом, можно с уверенностью сказать , что ничего не совсем нормально распределены в реальном мире.
источник
Я думаю, что предварительное тестирование на нормальность (которое включает в себя неформальные оценки с использованием графики) не имеет смысла.
источник
Прежде чем спрашивать, «полезен» ли тест или грубая проверка на нормальность, вы должны ответить на вопрос, стоящий за вопросом: «Почему вы спрашиваете?»
Например, если вы хотите установить доверительный предел только для среднего значения набора данных, отклонения от нормальных значений могут быть важными или нет, в зависимости от того, сколько у вас данных и насколько велики отклонения. Тем не менее, отклонения от нормы могут иметь решающее значение, если вы хотите предсказать, какое наиболее экстремальное значение будет иметься в будущих наблюдениях или в популяции, из которой вы выбрали.
источник
Позвольте мне добавить одну небольшую вещь:
выполнение теста нормальности без учета его альфа-ошибки повышает вашу общую вероятность выполнения альфа-ошибки.
Вы никогда не забудете, что каждый дополнительный тест делает это, пока вы не контролируете накопление альфа-ошибок. Следовательно, еще одна веская причина отклонить тестирование нормальности.
источник
Ответы здесь уже затронули несколько важных моментов. Чтобы быстро подвести итог:
Сначала я добавляю ответ, чтобы сослаться на одну из моих, лично наиболее часто посещаемых и читаемых статистических статей: « Важность нормальных допущений в больших наборах данных общественного здравоохранения », автор Lumley et. и др. Это стоит прочитать полностью. Резюме гласит:
Подводя итог: нормальность, как правило, не стоит обсуждения или внимания, которое она получает в отличие от важности ответа на конкретный научный вопрос. Если желание состоит в суммировании средних различий в данных, то t-критерий и ANOVA или линейная регрессия оправданы в гораздо более широком смысле. Тесты, основанные на этих моделях, остаются на правильном альфа-уровне, даже если предположения о распределении не соблюдаются, хотя мощность может ухудшаться.
Причины, по которым нормальные распределения могут получить внимание, которое они уделяют, могут быть по классическим причинам, когда можно было получить точные тесты, основанные на F-распределениях для ANOVAs и T-распределениях Стьюдента для T-теста. Правда в том, что среди многих современных достижений науки мы обычно имеем дело с большими наборами данных, чем были собраны ранее. Если кто-то на самом деле имеет дело с небольшим набором данных, то обоснование того, что эти данные обычно распределяются, не может быть получено из самих этих данных: просто не хватает мощности. На мой взгляд, упоминание других исследований, повторений или даже биологии или науки о процессе измерения является гораздо более оправданным подходом к обсуждению возможной вероятностной модели, лежащей в основе наблюдаемых данных.
По этой причине выбор теста на основе рейтинга в качестве альтернативы полностью упускает из виду. Тем не менее, я согласен, что использование надежных оценщиков дисперсии, таких как складной нож или бутстрап, предлагает важные вычислительные альтернативы, которые позволяют проводить тесты при различных более важных нарушениях спецификации модели, таких как независимость или идентичное распределение этих ошибок.
источник
Раньше я думал, что тесты нормальности были совершенно бесполезны.
Однако сейчас я занимаюсь консультированием других исследователей. Часто получение образцов чрезвычайно дорого, и поэтому они захотят сделать вывод, скажем, с n = 8.
В таком случае очень трудно найти статистическую значимость с помощью непараметрических тестов, но t-тесты с n = 8 чувствительны к отклонениям от нормальности. Таким образом, мы получаем, что мы можем сказать «хорошо, при условии предположения о нормальности, мы находим статистически значимое различие» (не волнуйтесь, это обычно экспериментальные исследования ...).
Тогда нам нужен какой-то способ оценки этого предположения. Я на полпути в лагере, что смотреть на участки - лучший путь, но, по правде говоря, может быть много разногласий по этому поводу, что может быть очень проблематичным, если один из людей, не согласных с вами, является рецензент вашей рукописи.
Во многих отношениях я все еще думаю, что в тестах нормальности есть много недостатков: например, мы должны думать об ошибке типа II больше, чем о типе I. Но в них есть необходимость.
источник
Для чего бы то ни было, я однажды разработал быстрый сэмплер для усеченного нормального распределения, и тестирование нормальности (KS) было очень полезно при отладке функции. Этот пробоотборник проходит испытание с огромными размерами проб, но, что интересно, пробоотборник зиккурата GSL не прошел.
источник
Аргумент, который вы привели - это мнение. Я думаю, что важность тестирования нормальности состоит в том, чтобы убедиться, что данные не сильно отличаются от нормальных. Я использую его иногда, чтобы решить, использовать ли параметрический или непараметрический тест для моей процедуры вывода. Я думаю, что тест может быть полезен в средних и больших выборках (когда центральная предельная теорема не вступает в игру). Я обычно использую тесты Вилка-Шапиро или Андерсона-Дарлинга, но, выполняя SAS, я получаю их все, и они в целом согласны довольно хорошо. С другой стороны, я думаю, что графические процедуры, такие как графики QQ, работают одинаково хорошо. Преимущество формального теста в том, что он объективен. В небольших выборках верно то, что эти тесты на пригодность практически не имеют силы, и это имеет интуитивный смысл, поскольку небольшая выборка из нормального распределения может случайно выглядеть довольно ненормально, что учитывается в тесте. Кроме того, высокая асимметрия и эксцесс, которые отличают многие ненормальные распределения от нормальных, не так легко увидеть в небольших выборках.
источник
Я думаю, что максимальный энтропийный подход может быть полезен здесь. Мы можем назначить нормальное распределение, потому что мы считаем, что данные «нормально распределены» (что бы это ни значило) или потому что мы ожидаем увидеть отклонения примерно одинаковой величины. Кроме того, поскольку нормальное распределение имеет только две достаточные статистики, оно нечувствительно к изменениям данных, которые не изменяют эти величины. Таким образом, в некотором смысле вы можете думать о нормальном распределении как о «среднем» по всем возможным распределениям с одинаковыми первым и вторым моментами. это дает одну из причин, по которой наименьшие квадраты должны работать так же, как и они.
источник
Я бы не сказал, что это бесполезно, но это действительно зависит от приложения. Обратите внимание, вы никогда не знаете, из какого источника поступают данные, и у вас есть лишь небольшой набор реализаций. Ваше среднее значение выборки всегда конечное в выборке, но среднее значение может быть неопределенным или бесконечным для некоторых типов функций плотности вероятности. Рассмотрим три типа стабильных распределений Леви: нормальное распределение, распределение Леви и распределение Коши. Большинство ваших выборок не имеют много наблюдений в хвосте (то есть далеко от среднего значения выборки). Таким образом, эмпирически очень трудно различить три, поэтому Коши (с неопределенным средним) и Леви (с бесконечным средним) могут легко маскироваться под нормальное распределение.
источник
Я думаю, что первые 2 вопроса были полностью даны ответы, но я не думаю, что вопрос 3 был решен. Многие тесты сравнивают эмпирическое распределение с известным предполагаемым распределением. Критическое значение для критерия Колмогорова-Смирнова основано на полной уточненности F. Его можно модифицировать для проверки параметрического распределения с оценкой параметров. Так что, если нечеткость означает оценку более двух параметров, то ответ на вопрос - да. К этим тестам могут применяться 3 семейства параметров или более. Некоторые тесты предназначены для лучшей производительности при тестировании на определенном семействе дистрибутивов. Например, при проверке нормальности тест Андерсона-Дарлинга или Шапиро-Уилка имеет большую мощность, чем KS или хи-квадрат, когда нулевое предполагаемое распределение является нормальным.
источник
Тесты, в которых «что-то» важное для анализа подтверждается высокими значениями p, я считаю неправильными. Как указывали другие, для больших наборов данных гарантируется значение p ниже 0,05. Таким образом, тест, по сути, «награды» для небольших и нечетких наборов данных и «награды» за отсутствие доказательств. Что-то вроде графиков qq гораздо полезнее. Желание твердых чисел решать подобные вещи всегда (да / нет нормальное / ненормальное) упускает из виду, что моделирование частично является искусством и как гипотезы фактически поддерживаются.
источник
Один хороший пример использования теста нормальности, о котором я не упомянул, - это определить, можно ли использовать z-показатели. Допустим, вы выбрали случайную выборку из популяции, и вы хотите найти вероятность выбора одного случайного человека из популяции и получить значение 80 или выше. Это можно сделать только в том случае, если распределение нормальное, поскольку для использования z-показателей предполагается, что распределение населения является нормальным.
Но тогда, я думаю, я тоже вижу в этом спор ...
источник