Я хочу знать, как проверить набор данных на нормальность в Excel, просто чтобы убедиться, что требования для использования t-критерия выполняются .
Для правого хвоста уместно просто рассчитать среднее и стандартное отклонение, добавить 1, 2 и 3 стандартных отклонения от среднего, чтобы создать диапазон, а затем сравнить его с нормальным значением 68/95 / 99.7 для стандартного нормального распределения после использования. функция norm.dist в excel для проверки каждого значения стандартного отклонения.
Или есть лучший способ проверить на нормальность?
normal-distribution
excel
Eudora
источник
источник
Ответы:
У вас правильная идея. Это можно сделать систематически, комплексно и с помощью относительно простых расчетов. График результатов называется нормальным вероятностным графиком (или иногда графиком ПП). Из него вы можете увидеть гораздо больше деталей, чем в других графических представлениях, особенно в гистограммах , и с небольшой практикой вы можете даже научиться определять способы повторного выражения ваших данных, чтобы сделать их ближе к нормальному в ситуациях, когда это оправдано.
Вот пример:
Данные в столбце
A
(и названыData
). Все остальное - расчет, хотя вы можете управлять значением «шарнирного ранга», используемым для подгонки контрольной линии к графику.Этот график представляет собой диаграмму рассеяния, сравнивающую данные со значениями, которые были бы получены числами, взятыми независимо от стандартного нормального распределения. Когда точки располагаются вдоль диагонали, они близки к нормальному; горизонтальные отклонения (вдоль оси данных) указывают отклонения от нормы. В этом примере точки очень близки к базовой линии; самый большой вылет происходит при наибольшем значении, которое составляет около1,5 единиц слева от линии. Таким образом, мы сразу видим, что эти данные очень близки к нормальному распределению, но, возможно, имеют слегка «легкий» правый хвост. Это прекрасно для применения t-теста.
Значения сравнения по вертикальной оси рассчитываются в два этапа. Сначала каждое значение данных ранжируется от1 до N , количество данных (показано в 0 до 1 . Хорошая формула для использования является ( Оценка - 1 / 6 ) / ( п + 2 / 3 ) . (См.Http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm,откуда это берется.) Затем они преобразуются в стандартные нормальные значения через
Count
поле в ячейкеF2
). Они пропорционально преобразуются в значения в диапазоне отNormSInv
функция. Эти значения появляются вNormal score
столбце. График справа представляет собой диаграмму рассеяния XYNormal Score
против данных. (В некоторых ссылках вы увидите транспонирование этого графика, что, возможно, более естественно, но Excel предпочитает размещать крайний левый столбец на горизонтальной оси и самый правый столбец на вертикальной оси, поэтому я позволил ему делать то, что он предпочитает. )(Как вы можете видеть, я смоделировал эти данные с независимыми случайными выборками из нормального распределения со средним5 и стандартным отклонением 2 Поэтому неудивительно, что график вероятности выглядит так красиво.) На самом деле есть только две формулы для ввода, который вы распространяете вниз, чтобы соответствовать данным: они появляются в ячейках
B2:C2
и полагаются наCount
значение, вычисленное в ячейкеF2
. Это действительно все, что нужно, кроме сюжета.Остальная часть этого листа не является необходимой, но она полезна для оценки графика: она обеспечивает надежную оценку контрольной линии. Это делается путем выбора двух точек, расположенных одинаково далеко слева и справа от графика, и связывания их линией. В примере эти точки являются третьим самым низким и третьим самым высоким, как определено3 в
Hinge Rank
ячейкеF3
. В качестве бонуса его наклон и пересечение являются надежными оценками стандартного отклонения и среднего значения данных, соответственно.Чтобы построить контрольную линию, две крайние точки вычисляются и добавляются к графику: их вычисление происходит в столбцах с
I:J
меткамиX
иY
.источник
Вы можете построить гистограмму, используя пакет инструментов анализа данных в Excel . Графические подходы с большей вероятностью сообщают о степени ненормальности, которая обычно более актуальна для предположительного тестирования (см. Это обсуждение нормальности ).
Пакет инструментов анализа данных в Excel также даст вам асимметрию и эксцесс, если вы попросите описательную статистику и выберете опцию «итоговая статистика». Например, вы можете считать значения асимметрии выше плюс или минус один формой существенной ненормальности.
Тем не менее, при t-тестах предполагается, что остатки обычно распределяются, а не являются переменными. Кроме того, они также достаточно устойчивы, так что даже при довольно большом количестве ненормальностей p-значения по-прежнему достаточно действительны.
источник
Этот вопрос также граничит с теорией статистики - проверка на нормальность с ограниченными данными может быть сомнительной (хотя мы все время от времени делали это).
В качестве альтернативы вы можете посмотреть на коэффициенты эксцесса и асимметрии. От Хана и Шапиро: статистические модели в машиностроении некоторая справочная информация предоставляется о свойствах Beta1 и Beta2 (страницы 42–49) и Рис. 6-1 на странице 197. Дополнительную теорию можно найти в Википедии (см. Распределение Пирсона).
В основном вам нужно рассчитать так называемые свойства Beta1 и Beta2. Beta1 = 0 и Beta2 = 3 предполагают, что набор данных приближается к норме. Это грубый тест, но с ограниченными данными можно утверждать, что любой тест можно считать грубым.
Beta1 относится к моментам 2 и 3 или дисперсии и асимметрии соответственно. В Excel это VAR и SKEW. Где ... ваш массив данных, формула:
Бета2 связана с моментами 2 и 4 или с дисперсией и эксцессом соответственно. В Excel это VAR и KURT. Где ... ваш массив данных, формула:
Затем вы можете сравнить их со значениями 0 и 3 соответственно. Это имеет преимущество в потенциальной идентификации других распределений (включая Распределения Пирсона I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Например, многие из обычно используемых распределений, таких как Uniform, Normal, t's Student, Beta, Gamma, Exponential и Log-Normal, могут быть указаны из этих свойств:
Они проиллюстрированы в Хан и Шапиро Рис 6-1.
Конечно, это очень грубый тест (с некоторыми проблемами), но вы можете рассмотреть его как предварительную проверку, прежде чем переходить к более строгому методу.
Существуют также механизмы корректировки для расчета Beta1 и Beta2, где данные ограничены - но это выходит за рамки этого поста.
источник