Как проверить нормальное распространение с помощью Excel для выполнения t-теста?

21

Я хочу знать, как проверить набор данных на нормальность в Excel, просто чтобы убедиться, что требования для использования t-критерия выполняются .

Для правого хвоста уместно просто рассчитать среднее и стандартное отклонение, добавить 1, 2 и 3 стандартных отклонения от среднего, чтобы создать диапазон, а затем сравнить его с нормальным значением 68/95 / 99.7 для стандартного нормального распределения после использования. функция norm.dist в excel для проверки каждого значения стандартного отклонения.

Или есть лучший способ проверить на нормальность?

Eudora
источник

Ответы:

15

У вас правильная идея. Это можно сделать систематически, комплексно и с помощью относительно простых расчетов. График результатов называется нормальным вероятностным графиком (или иногда графиком ПП). Из него вы можете увидеть гораздо больше деталей, чем в других графических представлениях, особенно в гистограммах , и с небольшой практикой вы можете даже научиться определять способы повторного выражения ваших данных, чтобы сделать их ближе к нормальному в ситуациях, когда это оправдано.

Вот пример:

Электронная таблица с вероятностным графиком

Данные в столбце A(и названы Data). Все остальное - расчет, хотя вы можете управлять значением «шарнирного ранга», используемым для подгонки контрольной линии к графику.

Этот график представляет собой диаграмму рассеяния, сравнивающую данные со значениями, которые были бы получены числами, взятыми независимо от стандартного нормального распределения. Когда точки располагаются вдоль диагонали, они близки к нормальному; горизонтальные отклонения (вдоль оси данных) указывают отклонения от нормы. В этом примере точки очень близки к базовой линии; самый большой вылет происходит при наибольшем значении, которое составляет около 1,5 единиц слева от линии. Таким образом, мы сразу видим, что эти данные очень близки к нормальному распределению, но, возможно, имеют слегка «легкий» правый хвост. Это прекрасно для применения t-теста.

Значения сравнения по вертикальной оси рассчитываются в два этапа. Сначала каждое значение данных ранжируется от 1 до N , количество данных (показано в Countполе в ячейке F2). Они пропорционально преобразуются в значения в диапазоне от 0 до 1 . Хорошая формула для использования является (ранг-1/6)/(N+2/3), (См.Http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm,откуда это берется.) Затем они преобразуются в стандартные нормальные значения черезNormSInvфункция. Эти значения появляются в Normal scoreстолбце. График справа представляет собой диаграмму рассеяния XY Normal Scoreпротив данных. (В некоторых ссылках вы увидите транспонирование этого графика, что, возможно, более естественно, но Excel предпочитает размещать крайний левый столбец на горизонтальной оси и самый правый столбец на вертикальной оси, поэтому я позволил ему делать то, что он предпочитает. )

Электронная таблица: нормальный расчет баллов

(Как вы можете видеть, я смоделировал эти данные с независимыми случайными выборками из нормального распределения со средним 5 и стандартным отклонением 2 Поэтому неудивительно, что график вероятности выглядит так красиво.) На самом деле есть только две формулы для ввода, который вы распространяете вниз, чтобы соответствовать данным: они появляются в ячейках B2:C2и полагаются на Countзначение, вычисленное в ячейке F2. Это действительно все, что нужно, кроме сюжета.

Остальная часть этого листа не является необходимой, но она полезна для оценки графика: она обеспечивает надежную оценку контрольной линии. Это делается путем выбора двух точек, расположенных одинаково далеко слева и справа от графика, и связывания их линией. В примере эти точки являются третьим самым низким и третьим самым высоким, как определено 3 в Hinge Rankячейке F3. В качестве бонуса его наклон и пересечение являются надежными оценками стандартного отклонения и среднего значения данных, соответственно.

Чтобы построить контрольную линию, две крайние точки вычисляются и добавляются к графику: их вычисление происходит в столбцах с I:Jметками Xи Y.

Электронная таблица: расчет базовой линии

Whuber
источник
Для формул в столбце B не могли бы вы объяснить причину добавления 1 и деления на 6 и 3 («+ 1/6» и «+ 1/3»)? Также есть ли причина, по которой вы решили разделить на 6 в ячейке ранга шарнира?
1/6100×1/6100×5/601/21/40,16
Формула (ранг + 1/6) / (n + 1/3) не выглядит симметричной, как мы могли бы ожидать. например, при среднем наблюдении 3 ранг равен 2, и это предполагает соответствующий процентиль 0,65, а не то, что кажется естественным для среднего наблюдения (0,5). Я что-то упустил очевидное? [Я видел, как Тьюки использовал несколько разных формул в разных местах, включая (i-1/3) / (n + 1/3). Формула по вашей ссылке вписывается в общую схему (ia) / (n + 1-2a), но формула, которую вы даете в своем ответе, не подходит]
Glen_b -Возвратите Монику
р-aN+1-2a
р1Na011/6(р-1/6)/(N+2/3)aзнак равно1/3
whuber
5

Вы можете построить гистограмму, используя пакет инструментов анализа данных в Excel . Графические подходы с большей вероятностью сообщают о степени ненормальности, которая обычно более актуальна для предположительного тестирования (см. Это обсуждение нормальности ).

Пакет инструментов анализа данных в Excel также даст вам асимметрию и эксцесс, если вы попросите описательную статистику и выберете опцию «итоговая статистика». Например, вы можете считать значения асимметрии выше плюс или минус один формой существенной ненормальности.

Тем не менее, при t-тестах предполагается, что остатки обычно распределяются, а не являются переменными. Кроме того, они также достаточно устойчивы, так что даже при довольно большом количестве ненормальностей p-значения по-прежнему достаточно действительны.

Джером англим
источник
4

Этот вопрос также граничит с теорией статистики - проверка на нормальность с ограниченными данными может быть сомнительной (хотя мы все время от времени делали это).

В качестве альтернативы вы можете посмотреть на коэффициенты эксцесса и асимметрии. От Хана и Шапиро: статистические модели в машиностроении некоторая справочная информация предоставляется о свойствах Beta1 и Beta2 (страницы 42–49) и Рис. 6-1 на странице 197. Дополнительную теорию можно найти в Википедии (см. Распределение Пирсона).

В основном вам нужно рассчитать так называемые свойства Beta1 и Beta2. Beta1 = 0 и Beta2 = 3 предполагают, что набор данных приближается к норме. Это грубый тест, но с ограниченными данными можно утверждать, что любой тест можно считать грубым.

Beta1 относится к моментам 2 и 3 или дисперсии и асимметрии соответственно. В Excel это VAR и SKEW. Где ... ваш массив данных, формула:

Beta1 = SKEW(...)^2/VAR(...)^3

Бета2 связана с моментами 2 и 4 или с дисперсией и эксцессом соответственно. В Excel это VAR и KURT. Где ... ваш массив данных, формула:

Beta2 = KURT(...)/VAR(...)^2

Затем вы можете сравнить их со значениями 0 и 3 соответственно. Это имеет преимущество в потенциальной идентификации других распределений (включая Распределения Пирсона I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Например, многие из обычно используемых распределений, таких как Uniform, Normal, t's Student, Beta, Gamma, Exponential и Log-Normal, могут быть указаны из этих свойств:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Они проиллюстрированы в Хан и Шапиро Рис 6-1.

Конечно, это очень грубый тест (с некоторыми проблемами), но вы можете рассмотреть его как предварительную проверку, прежде чем переходить к более строгому методу.

Существуют также механизмы корректировки для расчета Beta1 и Beta2, где данные ограничены - но это выходит за рамки этого поста.

AsymLabs
источник
Многие из этих материалов могут хорошо работать для больших наборов данных, и я согласен с вашей первоначальной оценкой, что тестирование нормальности может быть ограничено или сомнительно с небольшими наборами данных. Но, учитывая огромную изменчивость асимметрии и эксцесса, может показаться, что любые попытки определить тип базового распределения на основе этих статистических данных будут еще более сомнительными и менее определенными. Следовательно, не будет ли этот подход (в лучшем случае) вводить в заблуждение даже в качестве предварительной проверки?
whuber
1
Возможно, лучше всего квалифицировать метод дальше: Хан и Шапиро (как указано выше) рекомендуют соблюдать осторожность, особенно когда размер выборки меньше 200, и рекомендуют, чтобы за этим последовала дальнейшая проверка, такая как таблица частот это сравнивает подогнанное распределение с фактическими данными. Но, на мой взгляд, это полезный метод, который может предложить, где данные могут лежать в спектре возможностей. Я использовал его для наборов данных, не меньших, чем примерно 3000, и встроил его в программное обеспечение для компьютерного моделирования, где оно оказалось полезным.
AsymLabs
Я вижу, как ваш метод дает полезную информацию с наборами данных 3000 или более. Однако тогда нет необходимости проводить распределенное тестирование для оценки применимости t-критерия среднего.
whuber
Независимо от того, рассматриваете ли вы это как полезную технику, как я, или иначе, как вам кажется, это, тем не менее, быстрая и давно установленная (Пирсоном) альтернатива тестированию на нормальность (и приложению Student-t) в контекст этой темы. Пожалуйста, не поймите меня неправильно, я признаю и согласен с вашими проблемами. Но мы оба согласились бы, не так ли, с тем, что без предварительной информации попытка установить, можно ли смоделировать всю популяцию по гауссовской модели из очень маленькой выборки данных, является в лучшем случае выстрелом в темноте при любом методе, а в худшем - опасно.
AsymLabs
1
Это верно. Все, что я говорю, это то, что если из небольшой выборки опасно пытаться проверить, является ли популяция гауссовской, то, по крайней мере, столь же опасно использовать асимметрию и эксцесс, чтобы определить, каким может быть основное распределение! На самом деле, похоже, что такая попытка будет на самом деле хуже, потому что она опирается на нестабильные статистические данные, такие как эксцесс. Хотя система Пирсона может быть мощным руководством, помогающим людям идентифицировать возможные распределения, она обеспечивает меньшее понимание, чем даже ограниченные графические отображения, такие как гистограммы.
whuber