Является ли тестирование нормальности «по существу бесполезным»?

298

Бывший коллега однажды сказал мне следующее:

Обычно мы применяем тесты нормальности к результатам процессов, которые при нулевом значении генерируют случайные переменные, которые являются только асимптотически или почти нормальными (с «асимптотически» частью, зависящей от некоторой величины, которую мы не можем сделать большой); В эпоху дешевой памяти, больших данных и быстрых процессоров тесты нормальности всегда должны отклонять нулевое нормальное распределение для больших (хотя и не безумно больших) выборок. И наоборот, тесты на нормальность следует использовать только для небольших выборок, когда они предположительно имеют меньшую мощность и меньший контроль над скоростью I типа.

Это действительный аргумент? Это известный аргумент? Существуют ли хорошо известные тесты для «более размытой» нулевой гипотезы, чем нормальность?

Jeromy Anglim
источник
23
Для справки: я не думаю, что это должно быть вики сообщества.
Шейн
2
Я не был уверен, что был «правильный ответ» ...
Шаббычеф
5
В определенном смысле это верно для всех тестов конечного числа параметров. С фиксированным (количество параметров, по которому выполняется тест) и растущим без границ, любая разница между двумя группами (независимо от того, насколько она мала) всегда будет обнулять ноль в некоторой точке. На самом деле, это аргумент в пользу байесовских тестов. нkn
user603
2
Для меня это недопустимый аргумент. В любом случае, прежде чем дать какой-либо ответ, нужно немного формализовать вещи. Вы можете ошибаться, а можете и не быть, но теперь то, что у вас есть, является не чем иным, как интуицией: для меня предложение «В эпоху дешевой памяти, больших данных и быстрых процессоров тесты нормальности всегда должны отвергать ноль нормальных» нужны пояснения :) Я думаю, что если вы попытаетесь дать более формальную точность, ответ будет простым.
Робин Жирар
8
В теме «Не подходят ли большие наборы данных для проверки гипотез» обсуждается обобщение этого вопроса. ( stats.stackexchange.com/questions/2516/… )
whuber

Ответы:

229

Это не аргумент. Это (довольно строго) факт, что формальные тесты нормальности всегда отвергают огромные размеры выборок, с которыми мы работаем сегодня. Даже легко доказать, что когда n становится большим, даже самое маленькое отклонение от идеальной нормальности приведет к значительному результату. И поскольку каждый набор данных имеет некоторую степень случайности, ни один набор данных не будет идеально нормально распределенной выборкой. Но в прикладной статистике вопрос не в том, являются ли данные / остатки ... совершенно нормальными, но достаточно нормальными для выполнения предположений.

Позвольте мне проиллюстрировать это тестом Шапиро-Уилка . Приведенный ниже код создает набор распределений, которые приближаются к нормальности, но не являются полностью нормальными. Далее мы проверяем shapiro.test, отклоняется ли выборка из этих почти нормальных распределений от нормальности. В R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

Последняя строка проверяет, какая часть симуляций для каждого размера выборки значительно отклоняется от нормы. Так, в 87% случаев выборка из 5000 наблюдений значительно отклоняется от нормы по Шапиро-Уилксу. Тем не менее, если вы видите графики qq, вы никогда не выберете отклонение от нормы. Ниже вы видите в качестве примера qq-графики для одного набора случайных выборок.

альтернативный текст

с р-значениями

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 
Joris Meys
источник
40
Кроме того, центральная предельная теорема делает проверку формальной нормальности ненужной во многих случаях, когда n велико.
Джорис Мейс
31
да, реальный вопрос не в том, действительно ли данные распределяются нормально, но достаточно ли они нормальны, чтобы основополагающее предположение о нормальности было разумным для практической цели анализа, и я бы подумал, что аргумент, основанный на CLT, обычно [sic] достаточно для этого.
Дикран Marsupial
53
Этот ответ, по-видимому, не предназначен для ответа на этот вопрос: он просто демонстрирует, что тест SW не достигает своего номинального уровня достоверности, и поэтому он выявляет недостатки в этом тесте (или, по крайней мере, в его Rреализации). Но это все - это не имеет никакого отношения к полезности тестирования нормальности в целом. Первоначальное утверждение о том, что тесты нормальности всегда отклоняются на больших объемах выборки, просто неверно.
whuber
19
@whuber Этот ответ отвечает на вопрос. Все дело в том, что «почти» в «почти нормальности». SW проверяет, какова вероятность того, что образец взят из нормального распределения. Поскольку построенные мною распределения намеренно не являются нормальными, можно ожидать, что тест SW выполнит то, что обещает: отклонить нуль. Все дело в том, что это отклонение не имеет смысла в больших выборках, так как отклонение от нормы не приводит к потере мощности. Таким образом, тест является правильным, но бессмысленным, как показано на QQplots
Joris Meys
11
Я полагался на то, что вы написали, и неправильно понял, что вы имели в виду под «почти нормальным» дистрибутивом. Теперь я вижу - но только прочитав код и тщательно протестировав его - что вы моделируете из трех стандартных нормальных распределений со средними значениями и и комбинируете результаты в соотношении . Разве вы не надеетесь, что хороший тест нормальности в этом случае отвергнет ноль? То, что вы эффективно продемонстрировали, это то, что графики QQ не очень хороши в обнаружении таких смесей, вот и все! 0, 1,2 : 2 : 122:2:1
whuber
172

Размышляя о том, является ли тестирование нормальности «по существу бесполезным», сначала нужно подумать о том, для чего он должен быть полезен. Многие люди (ну ... по крайней мере, многие ученые) неправильно понимают вопрос, на который отвечает тест на нормальность.

Тесты нормальности вопроса отвечают: есть ли убедительные доказательства любого отклонения от гауссовского идеала? С умеренно большими реальными наборами данных ответ почти всегда да.

Ученые часто задают вопрос, на который ответит тест нормальности: достаточно ли отклоняются данные от гауссовского идеала, чтобы «запретить» использование теста, предполагающего гауссово распределение? Ученые часто хотят, чтобы тест на нормальность был тем судьей, который решает, когда следует отказаться от обычных (ANOVA и т. Д.) Тестов и вместо этого проанализировать преобразованные данные или использовать непараметрический тест на основе рангов или метод повторной выборки или начальной загрузки. Для этого тесты нормальности не очень полезны.

Харви Мотульский
источник
16
+1 за хороший и информативный ответ. Я считаю полезным найти хорошее объяснение распространенному недоразумению (которое я, кстати, испытал на себе: stats.stackexchange.com/questions/7022/… ). Однако мне не хватает альтернативного решения этого распространенного недоразумения. Я имею в виду, если тесты на нормальность - это неправильный путь, как можно проверить, является ли нормальное приближение приемлемым / оправданным?
Посеф
6
Там не заменит (здравый) смысл аналитика (или, ну, в общем, исследователя / ученого). И опыт (узнал, попробовав и увидев: какие выводы я получу, если предположу, что это нормально? В чем разница, если нет?). Графика ваши лучшие друзья.
FairMiles
2
Мне нравится эта статья, которая подчеркивает вашу точку зрения: Micceri, T. (1989). Единорог, нормальная кривая и другие невероятные существа. Психологический вестник, 105 (1), 156-166.
Джереми Майлз
4
Глядя на графику - это здорово, но что, если их слишком много, чтобы изучить вручную? Можем ли мы сформулировать разумные статистические процедуры, чтобы указать на возможные проблемы? Я имею в виду такие ситуации, как экспериментаторы А / Б в широком масштабе: exp-platform.com/Pages/… .
dfrankow
118

Я думаю, что тесты на нормальность могут быть полезны в качестве дополнения к графическим экзаменам. Они должны быть использованы правильно, хотя. По моему мнению, это означает, что многие популярные тесты, такие как тесты Шапиро-Уилка, Андерсона-Дарлинга и Жар-Бера, никогда не должны использоваться.

Прежде чем я объясню свою точку зрения, позвольте мне сделать несколько замечаний:

  • В недавней интересной статье Rochon et al. изучал влияние теста Шапиро-Вилка на t-критерий с двумя образцами. Двухэтапная процедура проверки на нормальность перед проведением, например, t-теста, не без проблем. С другой стороны, также не существует двухэтапной процедуры графического исследования нормальности перед проведением t-теста. Разница заключается в том, что влияние последнего гораздо сложнее исследовать (так как для этого требуется статистик, чтобы графически исследовать нормальность раз или около того ...).100,000
  • Полезно количественно оценить ненормальность , например, путем вычисления асимметрии образца, даже если вы не хотите выполнять формальный тест.
  • Многомерную нормальность может быть трудно оценить графически, и сходимость к асимптотическим распределениям может быть медленной для многомерной статистики. Поэтому тесты на нормальность более полезны в многомерной среде.
  • Тесты на нормальность, возможно, особенно полезны для практиков, которые используют статистику как набор методов черного ящика . Когда нормальность отклоняется, практикующий врач должен встревожиться и вместо того, чтобы выполнять стандартную процедуру, основанную на допущении нормальности, рассмотреть возможность использования непараметрической процедуры, применения преобразования или консультации с более опытным статистиком.
  • Как указывалось другими, если достаточно велико, CLT обычно спасает день. Однако то, что является «достаточно большим», отличается для разных классов распределений.n

(В моем определении) тест на нормальность направлен против класса альтернатив, если он чувствителен к альтернативам из этого класса, но не чувствителен к альтернативам из других классов. Типичными примерами являются тесты, направленные на перекос или куртотические альтернативы. Простейшие примеры используют асимметрию выборки и эксцесс в качестве статистики теста.

Направленные тесты нормальности, вероятно, часто предпочтительнее, чем омнибусные тесты (такие как тесты Шапиро-Уилка и Жарке-Бера), поскольку обычно для некоторых процедур логического вывода важны только некоторые типы ненормальностей .

Давайте рассмотрим t-критерий Стьюдента в качестве примера. Предположим, что у нас есть iid-образец из дистрибутива с асимметрией и (избыточным) эксцессомЕсли симметричен относительно своего среднего значения, . И и равны 0 для нормального распределения.γ=E(Xμ)3σ3κ=E(Xμ)4σ43.Xγ=0γκ

При предположениях регулярности мы получаем следующее асимптотическое разложение для cdf тестовой статистики : Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

где - это cdf, а - это pdf стандартного нормального распределения.Φ()ϕ()

γ появляется впервые в термине , тогда как появляется в термине . Асимптотическая производительность гораздо более чувствительны к отклонениям от нормальности в виде перекоса , чем в виде эксцесса.n1/2κn1 Т пTn

С помощью моделирования можно проверить, что это верно и для малых . Таким образом, t-критерий Стьюдента чувствителен к асимметрии, но относительно устойчив к тяжелым хвостам, и разумно использовать критерий нормальности, направленный на асимметрию альтернатив, до применения t-теста .n

Как правило ( не закон природы), вывод о средствах чувствителен к асимметрии, а вывод о дисперсиях чувствителен к эксцессу.

Использование направленного теста на нормальность имеет преимущество в получении большей силы против «опасных» альтернатив и меньшей мощности против менее «опасных» альтернатив, а это означает, что мы с меньшей вероятностью отклоним нормальность из-за отклонений от нормальности, которые выиграли не влияет на производительность нашей логической процедуры. Ненормальность количественно определяется таким образом, который имеет отношение к рассматриваемой проблеме. Это не всегда легко сделать графически.

По мере того как становится больше, асимметрия и эксцесс становятся менее важными - и направленные тесты, вероятно, обнаружат, отклоняются ли эти величины от 0 даже на небольшую величину. В таких случаях представляется разумным, например, проверить, является ли или (глядя на первое слагаемое раскрытия выше) а не . Это решает некоторые проблемы, с которыми мы в противном случае сталкиваемся, когда становится больше.n|γ|1

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0n

MånsT
источник
2
Теперь это отличный ответ!
user603
10
Да, это должен быть принятый, действительно фантастический ответ
jenesaisquoi
2
«Распространено, что только некоторые типы ненормальностей имеют значение для конкретной процедуры вывода». - конечно, тогда следует использовать тест, направленный на этот тип ненормальности. Но тот факт, что человек использует тест нормальности, подразумевает, что он заботится обо всех аспектах нормальности. Вопрос в том, является ли тест на нормальность в таком случае хорошим вариантом.
февраля
Тест на достаточность допущений для конкретных тестов становится обычным делом, что, к счастью, устраняет некоторые догадки.
Карл
1
@Carl: Можете ли вы добавить некоторые ссылки / примеры для этого?
kjetil b halvorsen
58

ИМХО тесты на нормальность абсолютно бесполезны по следующим причинам:

  1. Для небольших выборок существует высокая вероятность того, что истинное распределение популяции существенно ненормально, но тест нормальности не является достаточным для его выявления.

  2. На больших выборках такие вещи, как T-тест и ANOVA, довольно устойчивы к ненормальности.

  3. Вся идея нормально распределенной популяции - это просто удобное математическое приближение. Ни одна из величин, которые обычно рассматриваются статистически, не может иметь правдоподобных распределений с поддержкой всех действительных чисел. Например, люди не могут иметь отрицательный рост. Нечто не может иметь отрицательную массу или большую массу, чем во вселенной. Таким образом, можно с уверенностью сказать , что ничего не совсем нормально распределены в реальном мире.

dsimcha
источник
2
Разница электрических потенциалов является примером реальной величины, которая может быть отрицательной.
Нико
16
@nico: Конечно, это может быть отрицательно, но есть некоторый конечный предел, потому что во Вселенной очень много протонов и электронов. Конечно, это не имеет значения на практике, но это моя точка зрения. Ничто не распределяется точно нормально (модель неверна), но есть много вещей, которые достаточно близки (модель полезна). По сути, вы уже знали, что модель была неправильной, и отклонение или не отклонение нулевого значения по существу не дает никакой информации о том, является ли оно тем не менее полезным.
дсимча
1
@dsimcha - я считаю, что это действительно проницательный, полезный ответ.
rolando2
5
@dsimcha, -test и ANOVA не устойчивы к ненормальности. Смотрите документы Рэнда Уилкокса. t
Фрэнк Харрелл
@dsimcha "модель неверна". Разве все модели не "неправильные", хотя?
Atirag
30

Я думаю, что предварительное тестирование на нормальность (которое включает в себя неформальные оценки с использованием графики) не имеет смысла.

  1. Пользователи этого подхода предполагают, что оценка нормальности имеет силу около 1,0.
  2. Непараметрические тесты, такие как критерий Уилкоксона, Спирмена и Крускала-Уоллиса, имеют эффективность 0,95, если нормальность сохраняется.
  3. Ввиду 2. можно заранее указать использование непараметрического критерия, если даже есть вероятность того, что данные могут не возникнуть в результате нормального распределения.
  4. Модели порядковой кумулятивной вероятности (модель пропорциональных шансов, являющаяся членом этого класса) обобщают стандартные непараметрические критерии. Порядковые модели полностью преобразование-инвариантное относительно , являются надежными, мощными, и позволяют оценить квантили и среднее из .YYY
Фрэнк Харрелл
источник
обратите внимание, что эффективность 0,95 является асимптотической : FWIW Я предполагаю, что эффективность намного ниже для типичных конечных размеров выборки ... (хотя по общему признанию я не видел это изученный, и не пытался исследовать это
непосредственно
16

Прежде чем спрашивать, «полезен» ли тест или грубая проверка на нормальность, вы должны ответить на вопрос, стоящий за вопросом: «Почему вы спрашиваете?»

Например, если вы хотите установить доверительный предел только для среднего значения набора данных, отклонения от нормальных значений могут быть важными или нет, в зависимости от того, сколько у вас данных и насколько велики отклонения. Тем не менее, отклонения от нормы могут иметь решающее значение, если вы хотите предсказать, какое наиболее экстремальное значение будет иметься в будущих наблюдениях или в популяции, из которой вы выбрали.

Эмиль Фридман
источник
12

Позвольте мне добавить одну небольшую вещь:
выполнение теста нормальности без учета его альфа-ошибки повышает вашу общую вероятность выполнения альфа-ошибки.

Вы никогда не забудете, что каждый дополнительный тест делает это, пока вы не контролируете накопление альфа-ошибок. Следовательно, еще одна веская причина отклонить тестирование нормальности.

Хенрик
источник
Я предполагаю, что вы имеете в виду ситуацию, когда один сначала выполняет тест на нормальность, а затем использует результат этого теста, чтобы решить, какой тест выполнить следующим.
Харви Мотульский
3
Я ссылаюсь на общую полезность тестов нормальности, когда используется как метод, чтобы определить, уместно ли использовать определенный метод. Если вы применяете их в этих случаях, с точки зрения вероятности совершения альфа-ошибки лучше выполнить более надежный тест, чтобы избежать накопления альфа-ошибки.
Хенрик
4
Это не имеет смысла для меня. Даже если вы выберете, скажем, ANOVA или метод, основанный на ранге, основанный на тесте нормальности (конечно, плохая идея), в конце дня вы все равно будете выполнять только один тест сравнения интересов. Если вы ошибочно отклоняете нормальность, вы все равно не пришли к неверному выводу относительно этого конкретного сравнения. Возможно, вы выполняете два теста, но единственный случай, когда вы можете заключить, что такой-то фактор имеет эффект, - это когда второй тест также отклоняет , а не только первый. Следовательно, нет накопления альфа-ошибок ...H0
Gala
3
Другой способ проверки нормальности может увеличить ошибки типа I, если мы говорим об «общей вероятности выполнения альфа-ошибки». Сам тест имеет уровень ошибок, поэтому в целом наша вероятность совершения ошибки увеличивается. Полагаю, что я тоже делаю акцент на одной маленькой вещи ...
Ник Стаунер
2
@NickStauner Это именно то, что я хотел передать. Спасибо за разъяснение этого вопроса.
Хенрик
11

Ответы здесь уже затронули несколько важных моментов. Чтобы быстро подвести итог:

  • Не существует последовательного теста, который мог бы определить, действительно ли набор данных соответствует распределению или нет.
  • Тесты не являются заменой для визуальной проверки данных и моделей для определения высокого рычага, наблюдения с высоким влиянием и комментирования их влияния на модели.
  • Предположения для многих процедур регрессии часто неверно цитируются как требующие нормально распределенных «данных» [остатков], и что начинающие статистики интерпретируют это как требование, чтобы аналитик формально оценил это в некотором смысле, прежде чем приступить к анализу.

Сначала я добавляю ответ, чтобы сослаться на одну из моих, лично наиболее часто посещаемых и читаемых статистических статей: « Важность нормальных допущений в больших наборах данных общественного здравоохранения », автор Lumley et. и др. Это стоит прочитать полностью. Резюме гласит:

T-критерий и линейная регрессия наименьших квадратов не требуют какого-либо предположения о нормальном распределении в достаточно больших выборках. Предыдущие исследования по моделированию показывают, что «достаточно большой» часто составляет менее 100, и даже для наших крайне ненормальных данных о медицинских расходах он составляет менее 500. Это означает, что в исследованиях общественного здравоохранения, где выборки часто существенно больше этой, -test и линейная модель являются полезными инструментами по умолчанию для анализа различий и тенденций во многих типах данных, а не только в данных с нормальным распределением. Формальные статистические тесты на нормальность особенно нежелательны, поскольку они будут иметь низкую мощность в малых выборках, где имеет значение распределение, и высокую мощность только в больших выборках, где распределение неважно.

Несмотря на то, что свойства линейной регрессии для большой выборки хорошо изучены, было мало исследований размеров выборки, необходимых для того, чтобы предположение о нормальности было неважным. В частности, неясно, как необходимый размер выборки зависит от количества предикторов в модели.

Акцент на нормальных распределениях может отвлечь от реальных предположений этих методов. Линейная регрессия предполагает, что дисперсия исходной переменной приблизительно постоянна, но основное ограничение обоих методов заключается в том, что они предполагают, что достаточно изучить изменения среднего значения выходной переменной. Если какой-либо другой обзор распределения представляет больший интерес, то t-критерий и линейная регрессия могут не подходить.

Подводя итог: нормальность, как правило, не стоит обсуждения или внимания, которое она получает в отличие от важности ответа на конкретный научный вопрос. Если желание состоит в суммировании средних различий в данных, то t-критерий и ANOVA или линейная регрессия оправданы в гораздо более широком смысле. Тесты, основанные на этих моделях, остаются на правильном альфа-уровне, даже если предположения о распределении не соблюдаются, хотя мощность может ухудшаться.

Причины, по которым нормальные распределения могут получить внимание, которое они уделяют, могут быть по классическим причинам, когда можно было получить точные тесты, основанные на F-распределениях для ANOVAs и T-распределениях Стьюдента для T-теста. Правда в том, что среди многих современных достижений науки мы обычно имеем дело с большими наборами данных, чем были собраны ранее. Если кто-то на самом деле имеет дело с небольшим набором данных, то обоснование того, что эти данные обычно распределяются, не может быть получено из самих этих данных: просто не хватает мощности. На мой взгляд, упоминание других исследований, повторений или даже биологии или науки о процессе измерения является гораздо более оправданным подходом к обсуждению возможной вероятностной модели, лежащей в основе наблюдаемых данных.

По этой причине выбор теста на основе рейтинга в качестве альтернативы полностью упускает из виду. Тем не менее, я согласен, что использование надежных оценщиков дисперсии, таких как складной нож или бутстрап, предлагает важные вычислительные альтернативы, которые позволяют проводить тесты при различных более важных нарушениях спецификации модели, таких как независимость или идентичное распределение этих ошибок.

Adamo
источник
10

Раньше я думал, что тесты нормальности были совершенно бесполезны.

Однако сейчас я занимаюсь консультированием других исследователей. Часто получение образцов чрезвычайно дорого, и поэтому они захотят сделать вывод, скажем, с n = 8.

В таком случае очень трудно найти статистическую значимость с помощью непараметрических тестов, но t-тесты с n = 8 чувствительны к отклонениям от нормальности. Таким образом, мы получаем, что мы можем сказать «хорошо, при условии предположения о нормальности, мы находим статистически значимое различие» (не волнуйтесь, это обычно экспериментальные исследования ...).

Тогда нам нужен какой-то способ оценки этого предположения. Я на полпути в лагере, что смотреть на участки - лучший путь, но, по правде говоря, может быть много разногласий по этому поводу, что может быть очень проблематичным, если один из людей, не согласных с вами, является рецензент вашей рукописи.

Во многих отношениях я все еще думаю, что в тестах нормальности есть много недостатков: например, мы должны думать об ошибке типа II больше, чем о типе I. Но в них есть необходимость.

Клифф AB
источник
Обратите внимание, что аргументы здесь в том, что тесты только бесполезны в теории. Теоретически, мы всегда можем получить столько образцов, сколько захотим ... Вам все равно понадобятся тесты, чтобы доказать, что ваши данные хотя бы как-то близки к нормальным.
SmallChess
2
Хорошая точка зрения. Я думаю, что вы намекаете, и, конечно, я верю, что мера отклонения от нормальности важнее, чем проверка гипотезы.
Клифф AB
Пока они не переключаются на непараметрический тест и пытаются интерпретировать p-значения (которые становятся недействительными при условном предварительном тестировании), возможно, это нормально ?!
Бьорн
2
Мощность теста нормальности будет очень низкой при n = 8; в частности, отклонения от нормы, которые существенно повлияют на свойства теста, предполагающего, что его может быть довольно трудно обнаружить при малых размерах выборки (тестом или визуально).
Glen_b
1
@Glen_b: я согласен; Я думаю, что это настроение соответствует большей заботе об ошибках типа II, чем типа I. Моя точка зрения заключается в том, что в реальном мире необходимо проверять нормальность. Действительно ли наши нынешние инструменты удовлетворяют эту потребность - это другой вопрос.
Клифф AB
10

Для чего бы то ни было, я однажды разработал быстрый сэмплер для усеченного нормального распределения, и тестирование нормальности (KS) было очень полезно при отладке функции. Этот пробоотборник проходит испытание с огромными размерами проб, но, что интересно, пробоотборник зиккурата GSL не прошел.

Артур Б.
источник
8

Аргумент, который вы привели - это мнение. Я думаю, что важность тестирования нормальности состоит в том, чтобы убедиться, что данные не сильно отличаются от нормальных. Я использую его иногда, чтобы решить, использовать ли параметрический или непараметрический тест для моей процедуры вывода. Я думаю, что тест может быть полезен в средних и больших выборках (когда центральная предельная теорема не вступает в игру). Я обычно использую тесты Вилка-Шапиро или Андерсона-Дарлинга, но, выполняя SAS, я получаю их все, и они в целом согласны довольно хорошо. С другой стороны, я думаю, что графические процедуры, такие как графики QQ, работают одинаково хорошо. Преимущество формального теста в том, что он объективен. В небольших выборках верно то, что эти тесты на пригодность практически не имеют силы, и это имеет интуитивный смысл, поскольку небольшая выборка из нормального распределения может случайно выглядеть довольно ненормально, что учитывается в тесте. Кроме того, высокая асимметрия и эксцесс, которые отличают многие ненормальные распределения от нормальных, не так легко увидеть в небольших выборках.

Michael Chernick
источник
2
Хотя это, безусловно, можно использовать таким образом, я не думаю, что вы будете более объективны, чем с QQ-Plot. Субъективная часть с тестами - когда решить, что ваши данные ненормальные. При большом отборе пробы при p = 0,05 вполне может быть чрезмерным.
Эрик
4
Предварительное тестирование (как предлагается здесь) может сделать недействительной частоту ошибок типа I всего процесса; Следует учитывать тот факт, что предварительный тест был проведен при интерпретации результатов любого теста, который он выбрал. В более общем смысле, тесты гипотез должны быть сохранены для проверки нулевой гипотезы, которая действительно интересует, то есть, что нет никакой связи между переменными. Нулевая гипотеза о том, что данные являются в точности нормальными, не попадает в эту категорию.
Гость
1
(+1) Здесь отличный совет. Эрик, использование «цели» меня тоже удивило, пока я не осознал, что Майкл прав: два человека, правильно проводящих один и тот же тест на одних и тех же данных, всегда получат одинаковое значение p, но они могут по-разному интерпретировать один и тот же график QQ. Гость: спасибо за предупреждение об ошибке типа I. Но почему мы не должны заботиться о распределении данных? Часто это интересная и ценная информация. По крайней мере, я хочу знать, соответствуют ли данные предположениям, которые мои тесты делают о них!
whuber
1
Я категорически не согласен. Оба человека получают одинаковый QQ-график и одинаковое значение p. Чтобы интерпретировать значение p, вам необходимо принять во внимание размер выборки и нарушения нормальности, к которым ваш тест особенно чувствителен. Поэтому решение, что делать с вашим p-значением, столь же субъективно. Причина, по которой вы можете предпочесть значение p, заключается в том, что вы считаете, что данные могут соответствовать идеальному нормальному распределению, иначе вопрос лишь в том, насколько быстро значение p падает в зависимости от размера выборки. Более того, при достаточном размере выборки QQ-график выглядит примерно так же и остается стабильным с большим количеством выборок.
Эрик
1
Эрик, я согласен, что результаты тестов и графики требуют интерпретации. Но результат теста - число, и не будет никаких споров по этому поводу. Сюжет QQ, однако, допускает несколько описаний. Хотя каждый из них может быть объективно правильным, выбор того, на что обратить внимание, это ... выбор. Вот что означает «субъективный»: результат зависит от аналитика, а не только от самой процедуры. Вот почему, например, в условиях, таких как контрольные диаграммы и правительственные постановления, где важна «объективность», критерии основаны на численных тестах, а не на графических результатах.
whuber
7

Я думаю, что максимальный энтропийный подход может быть полезен здесь. Мы можем назначить нормальное распределение, потому что мы считаем, что данные «нормально распределены» (что бы это ни значило) или потому что мы ожидаем увидеть отклонения примерно одинаковой величины. Кроме того, поскольку нормальное распределение имеет только две достаточные статистики, оно нечувствительно к изменениям данных, которые не изменяют эти величины. Таким образом, в некотором смысле вы можете думать о нормальном распределении как о «среднем» по всем возможным распределениям с одинаковыми первым и вторым моментами. это дает одну из причин, по которой наименьшие квадраты должны работать так же, как и они.

probabilityislogic
источник
Хорошее соединение понятий. Я также согласен с тем, что в случаях, когда такое распределение имеет значение, гораздо интереснее думать о том, как генерируются данные. Мы применяем этот принцип при подборе смешанных моделей. С другой стороны, концентрации или соотношения всегда искажены. Я мог бы добавить, что под «нормальным ... нечувствительным к изменениям» вы подразумеваете инвариант к изменениям формы / масштаба.
AdamO
7

Я бы не сказал, что это бесполезно, но это действительно зависит от приложения. Обратите внимание, вы никогда не знаете, из какого источника поступают данные, и у вас есть лишь небольшой набор реализаций. Ваше среднее значение выборки всегда конечное в выборке, но среднее значение может быть неопределенным или бесконечным для некоторых типов функций плотности вероятности. Рассмотрим три типа стабильных распределений Леви: нормальное распределение, распределение Леви и распределение Коши. Большинство ваших выборок не имеют много наблюдений в хвосте (то есть далеко от среднего значения выборки). Таким образом, эмпирически очень трудно различить три, поэтому Коши (с неопределенным средним) и Леви (с бесконечным средним) могут легко маскироваться под нормальное распределение.

Kolonel
источник
1
«... эмпирически это очень трудно ...», кажется, выступает против , а не для дистрибутивного тестирования. Это странно читать в параграфе, чье введение предполагает, что действительно есть применение для дистрибутивного тестирования. Что же тогда вы действительно хотите сказать здесь?
whuber
3
Я против этого, но я также хочу быть осторожнее, чем просто говорить, что это бесполезно, так как я не знаю всего набора возможных сценариев. Есть много тестов, которые зависят от предположения о нормальности. Сказать, что тестирование нормальности бесполезно, по сути, разоблачает все подобные статистические тесты, поскольку вы говорите, что не уверены, что используете / делаете правильные вещи. В этом случае вы не должны делать это, вы не должны делать этот большой раздел статистики.
Колонель
Спасибо. Замечания в этом комментарии, кажется, лучше сфокусированы на вопросе, чем ваш первоначальный ответ! Вы можете обновить свой ответ в какой-то момент, чтобы сделать ваши мнения и советы более очевидными.
whuber
@whuber Нет проблем. Можете ли вы порекомендовать изменить?
Колонель
Вы можете начать с объединения двух постов - ответа и вашего комментария - а затем подумать о том, чтобы отсеять (или отложить в приложении, или уточнить) любой материал, который может быть косвенным. Например, ссылка на неопределенные средства еще не имеет четкого отношения к этому вопросу, и поэтому она остается несколько загадочной.
whuber
7

Я думаю, что первые 2 вопроса были полностью даны ответы, но я не думаю, что вопрос 3 был решен. Многие тесты сравнивают эмпирическое распределение с известным предполагаемым распределением. Критическое значение для критерия Колмогорова-Смирнова основано на полной уточненности F. Его можно модифицировать для проверки параметрического распределения с оценкой параметров. Так что, если нечеткость означает оценку более двух параметров, то ответ на вопрос - да. К этим тестам могут применяться 3 семейства параметров или более. Некоторые тесты предназначены для лучшей производительности при тестировании на определенном семействе дистрибутивов. Например, при проверке нормальности тест Андерсона-Дарлинга или Шапиро-Уилка имеет большую мощность, чем KS или хи-квадрат, когда нулевое предполагаемое распределение является нормальным.

оборота Майкл Черник
источник
5

Тесты, в которых «что-то» важное для анализа подтверждается высокими значениями p, я считаю неправильными. Как указывали другие, для больших наборов данных гарантируется значение p ниже 0,05. Таким образом, тест, по сути, «награды» для небольших и нечетких наборов данных и «награды» за отсутствие доказательств. Что-то вроде графиков qq гораздо полезнее. Желание твердых чисел решать подобные вещи всегда (да / нет нормальное / ненормальное) упускает из виду, что моделирование частично является искусством и как гипотезы фактически поддерживаются.

wvguy8258
источник
2
Остается, что большая почти нормальная выборка будет иметь низкое значение p, в то время как маленькая выборка, которая не является почти нормальной, часто не будет. Я не думаю, что большие значения р полезны. Опять же, они награждают за отсутствие доказательств. У меня может быть выборка с несколькими миллионами точек данных, и она почти всегда будет отклонять допущение нормальности в этих тестах, в то время как меньшая выборка не будет. Поэтому я считаю их бесполезными. Если мое мышление неверно, пожалуйста, покажите его, используя некоторые дедуктивные рассуждения по этому вопросу.
wvguy8258
Это не отвечает на вопрос вообще.
SmallChess
-2

Один хороший пример использования теста нормальности, о котором я не упомянул, - это определить, можно ли использовать z-показатели. Допустим, вы выбрали случайную выборку из популяции, и вы хотите найти вероятность выбора одного случайного человека из популяции и получить значение 80 или выше. Это можно сделать только в том случае, если распределение нормальное, поскольку для использования z-показателей предполагается, что распределение населения является нормальным.

Но тогда, я думаю, я тоже вижу в этом спор ...

Хотака
источник
Ценность чего? Имеется в виду, сумма, дисперсия, индивидуальное наблюдение? Только последний полагается на предполагаемую нормальность распределения.
whuber
я имел в виду индивидуальный
Hotaka
2
Благодарю. Однако ваш ответ остается настолько расплывчатым, что трудно сказать, на какие процедуры вы ссылаетесь, и невозможно оценить, верны ли ваши выводы.
whuber
2
Проблема с этим использованием такая же, как и с другим использованием: тест будет зависеть от размера выборки, поэтому он по сути бесполезен. Он не говорит вам, можете ли вы использовать z баллов.
Питер Флом