Каковы стандартные статистические тесты, чтобы увидеть, соответствуют ли данные экспоненциальному или нормальному распределению?

12

Каковы стандартные статистические тесты, чтобы увидеть, соответствуют ли данные экспоненциальному или нормальному распределению?

SMO
источник
2
Наилучший тест, вероятно, зависит от того, почему именно вы тестируете нормальность / экспоненту (так что некоторый фон был бы полезен), но вы всегда можете использовать тест Колмогорова Смирнова, чтобы проверить, соответствует ли данный набор данных любому заранее заданному распределению ( en.wikipedia .org / wiki / Колмогоров% E2% 80% 93Smirnov_test ). Есть много методов, используемых для нормального распространения, в частности: en.wikipedia.org/wiki/Normality_test
Макрос
Переменные, с которыми я имею дело, могут следовать нормальному или экспоненциальному распределению. Кроме того, у меня есть фактор, который меня не волнует. Тем не менее, это накладывает некоторые изменения на мои данные. Следовательно, я хотел бы нормализовать переменные, чтобы подавить влияние этого фактора неприятности. Итак, я подумал, что лучше нормализовать каждую переменную на основе их основного распределения. Вот почему мне нужен тест, чтобы выбрать между этими двумя дистрибутивами.
Smo
1
Что означает нормализация в этом предложении: я думал, что лучше нормализовать каждую переменную на основе их основного распределения ?
Макро
2
Несмотря на то, что QQ не является тестом, он полезен для быстрой интуитивной проверки соответствия ваших данных распределению.
naught101

Ответы:

13

Кажется, вы пытаетесь решить, моделировать ли ваши данные с помощью нормального или экспоненциального распределения. Это кажется мне несколько странным, так как эти дистрибутивы сильно отличаются друг от друга.

Нормальное распределение является симметричным, тогда как экспоненциальное распределение сильно смещено вправо, без отрицательных значений. Обычно выборка из экспоненциального распределения будет содержать много наблюдений, относительно близких к и несколько аберраций, которые отклоняются далеко вправо от . Эту разницу часто легко увидеть графически.000

Вот пример, где я смоделировал наблюдений из нормального распределения со средним и дисперсией и экспоненциального распределения со средним и дисперсией :2 4 2 4n=1002424

Нормальное и экспоненциальное: моделируемые данные

Симметрия нормального распределения и асимметрии экспоненты можно увидеть с помощью гистограмм, коробчатых диаграмм и диаграмм рассеяния, как показано на рисунке выше.

Еще один очень полезный инструмент - QQ-сюжет . В приведенном ниже примере точки должны приблизительно следовать линии, если образец взят из нормального распределения. Как видите, это относится к нормальным данным, но не к экспоненциальным данным.

QQ-графики для смоделированных данных

Если вам по какой-то причине графического исследования недостаточно, вы все равно можете использовать тест, чтобы определить, является ли ваше распределение нормальным или экспоненциальным. Поскольку нормальное распределение - это семейство масштабов и местоположений, вам нужно использовать тест, который является инвариантным при изменении масштаба и местоположения (т. Е. Результат теста не должен изменяться, если вы измените свои измерения с дюймов на сантиметры или добавите на все ваши наблюдения).+1

Когда нулевая гипотеза состоит в том, что распределение является нормальным, а альтернативная гипотеза состоит в том, что оно является экспоненциальным, наиболее мощный критерий определения местоположения и масштаба задается статистикой где - среднее значение по выборке, - наименьшее наблюдение в выборке, а - стандартное отклонение по выборке. Нормальность отклоняется в пользу экспоненциальности, если слишком велико.ˉ x x(1)sTE,N

TE,N=x¯x(1)s
x¯x(1)sTE,N

Этот тест на самом деле является односторонней версией теста Граббса на выбросы . Вы найдете, что это реализовано в большинстве статистических программ (но убедитесь, что вы используете правильную версию - есть несколько альтернативных статистик теста, используемых для теста на выбросы!).

Ссылка на являющуюся наиболее мощным тестом:TE,N раздел 4.2.4 « Проверка на нормальность » Х. К. Тода.

MånsT
источник
ФП спросил, тестируете ли вы на нормальность, какой тест вы бы выбрали и в отдельной ситуации, если вы тестируете на экспоненциальный, какой тест вы бы использовали. Я не читал ни слова о том, что он предлагал попробовать оба теста на одном наборе данных.
Майкл Р. Черник
Я интерпретировал это таким образом, так как в последующем комментарии к этому вопросу ФП написал: «Переменные, с которыми я имею дело, вероятно, будут следовать нормальному или экспоненциальному распределению. [...] Вот почему мне нужен тест, чтобы выбрать между этими двумя распределениями. "
MånsT
Я этого не заметил. В этом случае ваш ответ очень уместен. Я отвечал так, как будто он тестировал по одному за раз.
Майкл Р. Черник
@Michael: Я интерпретировал это так, когда читал оригинальный вопрос, но решил написать свой ответ после прочтения комментария. В противном случае, я не думаю, что было бы что добавить к вашему ответу (+1) (кроме небольших замечаний, которые я сделал в комментарии).
MånsT
5

Для экспоненциального распределения вы можете использовать тест, называемый тестом Морана или Бартлетта. Тестовая статистика включает выборочное среднее значение а также выборочное среднее значение зарегистрированных При нулевой гипотезе мы имеем приблизительно и двусторонний тест работает. Этот тест разработан против гамма-альтернатив.¯ Y ¯ log Y Y i B n = b n × { log ˉ Y - ¯ log Y }BnY¯logY¯Yi B nχ 2 ( n - 1 )

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

См. KC Kapur и LR Lamberson. Надежность в проектировании . Wiley 1977.

Ив
источник
2
Я наткнулся на несколько более свежих и обширных источников информации о тестировании на экспоненциальность. 1) Статья: A Henze, N. and Meintanis, SG (2005): «Современные и классические тесты на экспоненциальность: частичный обзор со сравнениями». Метрика, вып. 61, с. 29–45. 2) Пакет CRAN R с именем «exptest», реализующий тесты упомянутой статьи.
Ив
Распределение B_n не очень понятно. Это квадрат хи с n-1 df или квадрат хи с n-1 df, умноженный на n-1?
Довини Джаясинге
Работает как написано. Вы можете проверить это, используя несколько строк кода R.
Ив
Спасибо. Так что это должно быть умножение, как я мог видеть. В каком смысле степени свободы должны быть n-1?
Довини Джаясинге
Извините, я пропустил пункт в вашем вопросе о записи. Таким образом, статистика приблизительно соответствует распределению хи-квадрат с степенью свободы. н - 1Bnn1
Ив
4

Для нормальности Андерсон-Дарлинг и Шапиро-Вилк считаются лучшими. Для экспоненциального теста Лиллерфорса разработан специально для него.

Майкл Р. Черник
источник
5
этот ответ может быть улучшен с небольшой детализацией того, почему каждый тест считается хорошим / лучшим, чем другие.
naught101
Эти тесты лучше в том смысле, что они наиболее эффективны для отклонений от нормального (Андерсон-Дарлинг) и экспоненциального (Лиллефорс). Я не думаю, что на основе формы теста легко дать интуитивное объяснение.
Майкл Р. Черник
3
@Michael: тест Андерсона-Дарлинга на нормальность (например, дито Шапиро-Вилька) обладает респектабельной силой против широкого спектра альтернатив, но он, конечно, не самый мощный (ни в целом, ни в среднем). Выбор теста должен зависеть от альтернативы. Я никогда не слышал о тесте Lillerfors - вы имеете в виду критерий лиллиефорс (который на самом деле тест на нормальность , а не тест на экспоненциальность)?
MånsT
Конечно, я имел в виду тест Лиллефорса на экспоненциальность, так как он был предложен для предположений экспоненциального распределения. Я перечислил Shapiro-Wilk и Anderson-Darling, потому что, насколько мне известно, они являются одними из самых сильных среди тестов на нормальность. Каковы наиболее мощные тесты, на которые вы ссылаетесь?
Майкл Р. Черник
1
Это зависит от того, какой тип альтернативы у вас есть. Например, для асимметричных альтернатив асимметрия выборки часто оказывается более сильной, чем SW и AD. Последние представляют собой комплексные тесты, которые в среднем довольно хороши, но если вы знаете, о какой ненормальности вы беспокоитесь, лучше использовать направленный тест (такой как тест выборки асимметрии, который направлен на альтернативы асимметрии) ,
MånsT
4

Рассматривали ли вы графические методы, чтобы увидеть, как ведут себя данные?

Методы вероятностного графа обычно включают ранжирование данных, применение обратного CDF и последующее отображение результатов на декартовой плоскости. Это позволяет увидеть, отклоняются ли несколько значений от предполагаемого распределения, и, возможно, объяснить причину отклонения.

Скенектади.Особенности
источник