Мое распределение нормальное; Тест Колмогорова-Смирнова не согласен

15

У меня проблема с нормальностью некоторых данных, которые у меня есть: я выполнил тест Колмогорова, который говорит, что он ненормален с p = .0000, я не понимаю: асимметрия моего распределения = -. 497, и эксцесс = -0,024

Вот график моего распространения, который выглядит очень нормально ...

(У меня есть три балла, и каждый из этих баллов не является нормальным со значительным p-значением для теста Колмогорова ... Я действительно не понимаю)

введите описание изображения здесь

введите описание изображения здесь

Бу
источник
11
Откуда ты знаешь, что это нормально? Это не выглядит нормально для меня. Это выглядит влево.
mark999
1
Почему вы тестируете на нормальность?
Джек Эйдли

Ответы:

39
  1. У вас нет оснований утверждать, что ваши данные в норме. Даже если ваша асимметрия и избыточный эксцесс равны нулю, это не значит, что ваши данные в норме. Хотя асимметрия и эксцесс, далекий от ожидаемых значений, указывают на ненормальность, обратное утверждение не выполняется. Существуют ненормальные распределения, которые имеют ту же асимметрию и эксцесс, что и нормальные. Пример обсуждается здесь , плотность которого приводится ниже:
    дгам 2,3

    Как видите, это отчетливо бимодально. В этом случае распределение является симметричным, поэтому до тех пор, пока существуют достаточные моменты, типичная мера асимметрии будет 0 (в действительности все обычные меры будут). Для эксцессов, вклад в 4-е моменты из области, близкой к среднему, будет способствовать уменьшению эксцесса, но хвост является относительно тяжелым, что приводит к его увеличению. Если вы правильно выберете, эксцесс получается с тем же значением, что и для нормального.

  2. Ваша выборочная асимметрия на самом деле составляет около -0,5, что говорит о легкой левой асимметрии. Ваша гистограмма и график QQ указывают на одно и то же - умеренно левостороннее распределение. (Такая легкая асимметрия вряд ли будет проблемой для большинства обычных процедур нормальной теории.)

  3. Вы смотрите на несколько различных индикаторов ненормальности, с которыми не стоит соглашаться априори , так как они учитывают различные аспекты распределения; с небольшими слегка ненормальными образцами они часто не соглашаются.


Теперь о большом вопросе: * Почему вы тестируете на нормальность? *

[отредактировано в ответ на комментарии:]

Я не совсем уверен, я, хотя я должен, прежде чем делать ANOVA

Здесь нужно сделать несколько замечаний.

я. Нормальность - это допущение ANOVA, если вы используете его для вывода (например, проверки гипотез), но она не особенно чувствительна к ненормальности в больших выборках - легкая ненормальность не имеет большого значения, и по мере увеличения размеров выборки распределение может увеличиваться стать более ненормальным, и тест может быть затронут лишь незначительно.

II. Вы, кажется, проверяете нормальность ответа (DV). (Безусловное) распределение самого DV не предполагается нормальным в ANOVA. Вы проверяете невязки, чтобы оценить обоснованность предположения об условном распределении (то есть, это термин ошибки в модели, которая считается нормальной), т.е. вы, похоже, не смотрите на правильные вещи. Действительно, поскольку проверка выполняется для остатков, вы делаете это после подгонки модели, а не раньше.

III. Формальное тестирование может быть практически бесполезным. Интересующий нас вопрос «насколько сильно степень ненормальности влияет на мой вывод?», На которую тест гипотезы действительно не отвечает. По мере того, как размер выборки увеличивается, тест становится все более и более способным обнаруживать тривиальные отличия от нормальности, в то время как влияние на уровень значимости в ANOVA становится все меньше и меньше. То есть, если размер вашей выборки достаточно велик, тест нормальности в основном говорит о том, что у вас большой размер выборки, что означает, что вам не о чем беспокоиться. По крайней мере, с графиком QQ у вас есть визуальная оценка того, насколько это ненормально.

внутривенно при разумных размерах выборки другие предположения - такие как равенство дисперсии и независимости - обычно имеют гораздо большее значение, чем легкая ненормальность. Сначала беспокойтесь о других предположениях ... но опять же, формальное тестирование не отвечает на правильный вопрос

v. Выбор того, выполняете ли вы ANOVA или какой-либо другой тест, основанный на результатах теста на гипотезу, имеет тенденцию иметь худшие свойства, чем простое решение действовать так, как будто предположение не выполняется. (Существует множество методов, которые подходят для одностороннего анализа, подобного ANOVA, для данных, которые не считаются нормальными, которые вы можете использовать, когда не думаете, что у вас есть основания предполагать нормальность. Некоторые обладают очень хорошей силой на нормальном, и с приличным программным обеспечением нет причин избегать их.)

[Я думаю, что у меня была ссылка на этот последний пункт, но я не могу найти его прямо сейчас; если я найду это, я попытаюсь вернуться и вставить это]

Glen_b - Восстановить Монику
источник
Я прочитал вашу гистограмму примерно как минимум 12, режим 48, максимум 60, поэтому минимальное значение для режима - 36, максимальное - для режима 12. Не следует слишком много читать о таких деталях, но они полностью соответствуют левой асимметрии.
Ник Кокс
10

Тест Колмогорова-Смирнова обладает достаточной силой при больших размерах выборок, поэтому можно легко отклонить нулевую гипотезу о том, что ваши данные не отличаются от нормальных. Другими словами, тест иногда предполагает, что распределение не является нормальным в больших выборках, даже если оно является нормальным для большинства целей.

Думайте об этом как t-тест. Если у вас есть две популяции, которые различаются по высоте только на одну тысячную миллиметра, невероятно большие выборки будут статистически подтверждать, что они различны, даже если разница не имеет смысла.

Возможно, вы можете положиться на другие методы, чтобы определить нормальность ваших данных. Графики, которые вы используете, являются двумя хорошими примерами, а также значениями перекоса / куртоза.

Эта другая тема кажется особенно связанной: действительно ли тестирование нормальности «бесполезно»?

Behacad
источник
О, хорошо, это выглядит правильно, мой размер выборки довольно большой (n = 660), есть ли другие тесты, которые менее предвзяты из-за огромного размера выборки?
Бу
Сделайте поиск на этом сайте, и вы можете найти соответствующие ответы. stats.stackexchange.com/questions/12261/testing-normalit stats.stackexchange.com/questions/2492/…
Behacad
13
Тесты не смещены из-за огромного размера выборки.
Питер Флом - Восстановить Монику
10

Тест Колмогорова – Смирнова не содержит распределения, когда нулевая гипотеза полностью указана - если среднее значение и дисперсия оцениваются по данным, обязательно используйте вариант Лиллифорса при проверке нормальности (если необходимо). Это не для того, чтобы отказаться от других ответов.

Scortchi - Восстановить Монику
источник