Что такое нормальность?

33

Во многих различных статистических методах есть «допущение нормальности». Что такое "нормальность" и как мне узнать, есть ли нормальность?

Лев
источник
2
Вы пробовали Google / Wikipedia в первую очередь? en.wikipedia.org/wiki/Normal_distribution
робин джирард

Ответы:

29

Предположение о нормальности - это просто предположение о том, что базовая случайная величина, представляющая интерес, распределена нормально или приблизительно так. Интуитивно понятно, что нормальность можно понимать как результат суммы большого количества независимых случайных событий.

Более конкретно, нормальные распределения определяются следующей функцией:

альтернативный текст

где и - среднее значение и дисперсия, соответственно, и которое выглядит следующим образом:μσ2

альтернативный текст

Это можно проверить несколькими способами , которые могут в большей или меньшей степени соответствовать вашей проблеме по своим функциям, таким как размер n. По сути, все они проверяют наличие ожидаемых признаков, если распределение было нормальным (например, ожидаемое квантильное распределение ).

Джон Л. Тейлор
источник
33

Одно замечание: предположение о нормальности часто НЕ связано с вашими переменными, а с ошибкой, которая оценивается остатками. Например, в линейной регрессии ; нет предположения, что нормально распределен, только то, что есть.Y=a+bx+eYe

Питер Флом - Восстановить Монику
источник
16
+1. Наконец, кто-то указал, что, возможно, является наиболее важным аспектом этого вопроса: в большинстве ситуаций «нормальность» важна в отношении остатков или выборочных распределений статистики, а не в отношении распределений населения!
whuber
4
Я бы добавил, что если нормально распределено, то Y также хотя бы условно нормально. Я думаю, что это то, что упускается - люди думают, что Y немного нормален, но на самом деле необходима его условная нормальность. Простейшим примером этого является односторонний ANOVA. e
вероятностная
Условно на что?
bill_e
1
@bill_e независимые переменные
Glen_b
10

Связанный с этим вопрос можно найти здесь о нормальном допущении ошибки (или в более общем плане данных , если у нас нет предварительных знаний о данных).

В основном,

  1. Математически удобно использовать нормальное распределение. (Это связано с подходом наименьших квадратов и легко решается псевдообратным)
  2. Из-за центральной предельной теоремы мы можем предположить, что существует множество основных фактов, влияющих на процесс, и сумма этих отдельных эффектов будет вести себя как нормальное распределение. На практике это кажется так.

Отсюда следует важное замечание, что, как говорит здесь Теренс Тао : «Грубо говоря, эта теорема утверждает, что если взять статистику, которая представляет собой комбинацию множества независимых и случайно колеблющихся компонентов, то есть ни один компонент не оказывает решающего влияния на целое тогда эта статистика будет приблизительно распределена в соответствии с законом, называемым нормальным распределением ».

Чтобы сделать это понятным, позвольте мне написать фрагмент кода Python

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

Случайное распределение

Экспоненциальное распределение

Равномерное распределение

Как видно из рисунков, полученное распределение (сумма) стремится к нормальному распределению независимо от отдельных типов распределения. Таким образом, если у нас недостаточно информации о базовых эффектах в данных, предположение о нормальности является разумным.

Petrichor
источник
1
CLT не позволяет нам предполагать, что в каждом конкретном процессе есть много отдельных эффектов - если нам дают знать, что существует множество не слишком зависимых индивидуальных факторов, способствующих измерению (ни один из которых не имеет слишком много общего изменение), мы можем быть оправданы в предположении нормальности, вызывая CLT. Предположение о многих вкладах предшествует применению CLT, это ни в каком смысле не является результатом CLT. Иначе все было бы нормально, хотя на самом деле это только иногда грубо.
Glen_b
5

Вы не можете знать, есть ли нормальность, и поэтому вы должны сделать предположение, что это там. Вы можете доказать отсутствие нормальности только с помощью статистических тестов.

Еще хуже, когда вы работаете с данными реального мира, почти наверняка нет истинной нормальности в ваших данных.

Это означает, что ваш статистический тест всегда немного предвзят. Вопрос в том, можете ли вы жить с его предвзятостью. Чтобы сделать это, вы должны понимать ваши данные и тип нормальности, который предполагает ваш статистический инструмент.

Это причина, по которой инструменты Frequentist так же субъективны, как и байесовские инструменты. Вы не можете определить, основываясь на данных, которые обычно распространяются. Вы должны принять нормальность.

Кристиан
источник
5
Вы не можете ничего доказать, используя статистику. Доказательство должно быть точным. Статистика о вероятностях. Даже результат ap = 0.99 квадрата Хи не «доказывает», что базовое распределение не является нормальным. Чертовски маловероятно, что это нормально.
xmjx
@xmjx: Вы даже не можете сказать, что данный дистрибутив, вероятно, является нормальным. Если у вас есть распределение, где 99,99% ваших значений равны 1, а 0,01% ваших значений равны 1000000, статистический тест, в котором отбирается 100 значений, имеет хороший шанс ошибочно сказать, что ваше распределение нормально распределено.
Кристиан
2
Я не очень разбираюсь в статистике, так что это может показаться глупым вопросом ... не существует ли "истинной нормальности" в базовом процессе, который генерирует переменную, а не данные? Это может показаться глупым различием, но, возможно, это может спасти некоторые самоанализ. Если собранные данные не совсем нормальны, но основной случайный процесс работает в основном нормальным образом, это ситуация, когда вы можете решить «жить с предвзятостью»?
Джонатан
@Christian - ваш комментарий о том, что "... 100 значений имеет хорошие шансы ...", не подтверждается моим взломом: x = c (rep (1,99), rep (1000000,1)); ks.test (x, pnorm)> Предположение о нормальности все еще "отклонено" тестом KS.
rolando2
Мне нравится этот ответ (+1), но он немного пессимистичен в отношении того, что можно сделать с предположением нормальности. Обычно это хорошая отправная точка для любого моделирования, и вы можете обобщить до очень широкого класса распределений, взяв либо смеси, либо функции нормально распределенных случайных величин.
вероятностная
4

Предположение о нормальности предполагает, что ваши данные нормально распределены (кривая колокола или гауссово распределение). Вы можете проверить это, нанося данные на график или проверяя показатели для эксцесса (насколько резок пик) и асимметрии (?) (Если более половины данных находится на одной стороне пика).

Менно
источник
2
Какие уровни эксцессов и перекосов приемлемы для соответствия предположению о нормальности?
Лев
5
Большинство статистических методов предполагают нормальность не данных, а предполагаемой случайной величины, например, члена ошибки в линейной регрессии. Проверка включает в себя поиск остатков, а не исходных данных!
3

Другие ответы охватили, что такое нормальность, и предложили методы тестирования нормальности. Кристиан подчеркнул, что на практике совершенной нормальности практически не существует.

Я подчеркиваю, что наблюдаемое отклонение от нормы не обязательно означает, что методы, предполагающие нормальность, могут не использоваться, и тест на нормальность может быть не очень полезным.

  1. Отклонение от нормы может быть вызвано выбросами, вызванными ошибками в сборе данных. Во многих случаях, проверяя журналы сбора данных, вы можете исправить эти цифры, и нормальность часто улучшается.
  2. Для больших выборок тест на нормальность сможет обнаружить незначительное отклонение от нормы.
  3. Методы, предполагающие нормальность, могут быть устойчивыми к ненормальности и давать результаты приемлемой точности. Известно, что t-критерий является надежным в этом смысле, в то время как F-критерий не является источником ( постоянная ссылка ) . Относительно определенного метода лучше всего проверить литературу о надежности.
GaBorgulya
источник
1
Я думаю, что причина, по которой нормальность является хорошим допущением, заключается в относительной нехватке данных - только первые два момента используются при оценке с нормальным распределением. Это делает диагностическую проверку модели наименьших квадратов очень простой - в основном вы просто ищете выбросы, которые могут повлиять на достаточную статистику.
вероятностная
3

Чтобы добавить к ответам выше: «Предположение о нормальности» заключается в том, что в модели термин «остаток» обычно распределен. Это предположение (как я ANOVA) часто идет с некоторыми другими: 2) дисперсия of постоянна, 3) независимость наблюдений.Y=μ+Xβ+ϵϵσ2ϵ

Из этих трех предположений, 2) и 3) в основном значительно важнее, чем 1)! Таким образом, вы должны больше заниматься ими. Джордж Бокс сказал что-то вроде: «Провести предварительный тест на отклонения - это все равно, что выйти в море на гребной лодке, чтобы выяснить, достаточно ли спокойны условия для выхода океанического лайнера из порта!» - [Box, «Non -нормальность и тесты на дисперсии ", 1953, Биометрика 40, с. 318-335]"

Это означает, что неравные отклонения вызывают серьезную обеспокоенность, но на самом деле их тестирование очень сложно, потому что на тесты влияет ненормальность, настолько мала, что это не имеет значения для испытаний средств. Сегодня существуют непараметрические тесты на неравные отклонения, которые НЕОБХОДИМО использовать.

Короче, сначала займись собой неравными отклонениями, потом нормальностью. Когда вы составите свое мнение о них, вы можете думать о нормальности!

Вот много полезных советов: http://rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt

Къетил б Халворсен
источник
Я совершенно уверен, что моя интерпретация верна. Бокс также подробно писал об этом в Box, Hunter & Hunter: Статистика для экспериментаторов, который я полностью прочитал. Но теперь я вижу, что то, о чем я писал, не то, что я имел в виду, это должно сказать ... тогда о нормальности! неравные отклонения гораздо важнее нормальности. Конечно, независимость - мать всех предположений.
kjetil b halvorsen