Каковы некоторые теоремы, которые могут объяснить (то есть, в целом), почему данные реального мира могут нормально распределяться?
Есть два, о которых я знаю:
Центральная предельная теорема (конечно), которая говорит нам, что сумма нескольких независимых случайных величин со средним и дисперсией (даже если они не распределены одинаково) имеет тенденцию быть нормально распределенной
Пусть X и Y - независимые непрерывные RV с дифференцируемыми плотностями, так что их совместная плотность зависит только от + . Тогда X и Y нормальные.
(кросс-пост от mathexchange )
Изменить: Чтобы уточнить, я не претендую на то, сколько данных реального мира обычно распространяется. Я просто спрашиваю о теоремах, которые могут дать представление о том, какие процессы могут привести к нормально распределенным данным.
источник
Ответы:
Многие предельные распределения дискретных RV (пуассоновых, биномиальных и т. Д.) Являются приблизительно нормальными. Подумай о Плинко. Почти во всех случаях, когда приблизительная нормальность имеет место, нормальность проявляется только для больших выборок.
Большинство реальных данных НЕ распространяются нормально. В статье Micceri (1989) под названием « Единорог, нормальная кривая и другие невероятные существа » было рассмотрено 440 крупномасштабных достижений и психометрических показателей. Он обнаружил много изменчивости в распределениях по их моментам и мало доказательств (даже приблизительных) нормальности.
В статье Стивена Стиглера, написанной в 1977 году, под названием « Работают ли надежные оценщики с реальными данными », он использовал 24 набора данных, собранных в ходе известных попыток 18-го века измерить расстояние от Земли до Солнца и 19-го века, измерить скорость света. Он сообщил об асимметрии проб и эксцессах в таблице 3. Данные носят тяжелый характер.
В статистике мы часто предполагаем нормальность, потому что она делает максимальное правдоподобие (или какой-либо другой метод) удобным. Однако две приведенные выше работы показывают, что это предположение часто носит сомнительный характер. Вот почему исследования надежности являются полезными.
источник
Существует также теоретико-информационное обоснование использования нормального распределения. Учитывая среднее значение и дисперсию, нормальное распределение имеет максимальную энтропию среди всех вещественных распределений вероятностей. Есть много источников, обсуждающих эту собственность. Краткий можно найти здесь . Более общее обсуждение мотивации использования гауссовского распределения с участием большинства упомянутых выше аргументов можно найти в этой статье из журнала Signal Processing.
источник
В физике это CLT, который обычно упоминается в качестве причины для нормально распределенных ошибок во многих измерениях.
Два наиболее распространенных распределения ошибок в экспериментальной физике - нормальное и пуассоновское. Последнее обычно встречается при измерениях количества, таких как радиоактивный распад.
Еще одна интересная особенность этих двух распределений состоит в том, что сумма случайных величин из гауссовых и пуассоновских функций принадлежит гауссовским и пуассоновским.
Есть несколько книг по статистике в экспериментальных науках, таких как эта : Герхард Бом, Гюнтер Цех, Введение в статистику и анализ данных для физиков, ISBN 978-3-935702-41-6
источник
CLT чрезвычайно полезен, когда делает выводы о таких вещах, как совокупность значений, потому что мы получаем это путем вычисления некоторой линейной комбинации набора отдельных измерений. Однако, когда мы пытаемся сделать выводы об отдельных наблюдениях, особенно будущих ( например , интервалы прогнозирования), отклонения от нормальности гораздо важнее, если мы заинтересованы в хвостах распределения. Например, если у нас есть 50 наблюдений, мы делаем очень большую экстраполяцию (и прыжок веры), когда говорим что-то о вероятности того, что будущее наблюдение будет как минимум на 3 стандартных отклонения от среднего значения.
источник