Есть ли объяснение тому, почему существует так много природных явлений, которые следуют нормальному распределению?

29

Я думаю, что это увлекательная тема, и я не до конца ее понимаю. Какой закон физики делает так, чтобы у многих природных явлений было нормальное распределение? Казалось бы, более интуитивно понятно, что они будут иметь равномерное распределение.

Мне так трудно это понять, и я чувствую, что мне не хватает некоторой информации. Может ли кто-нибудь помочь мне с хорошим объяснением или связать меня с книгой / видео / статьей?

yoyo_fun
источник
Проверьте это .
Антони Пареллада
7
Есть ли у вас веские основания полагать, что ваша предпосылка действительно соответствует действительности?
Glen_b
4
На самом деле нормальное распределение не может быть «доминирующим» распределением в природе. Существует много явлений и поведений, которые чрезвычайно ценны, носят тяжелый характер или описывают функции степенного закона. Гэбокс описывает многие экономические и финансовые варианты этого класса дистрибуции в своей статье « Законы власти в экономике: введение» без публикации ... pages.stern.nyu.edu/~xgabaix/papers/pl-jep.pdf Shalizi, et и др. Обсудите их эмпирическую оценку в этой статье. Распределение степенных законов в эмпирических данных , без комментариев здесь ... santafe.edu/media/workingpapers/07-12-049.pdf
Майк Хантер,
Кто сказал вам, что нормальное распределение было доминирующим в любом случае?
shadowtalker
1
@DJohnson +1 для ссылок, но важно отметить, что ключевая находка в Clauset et al. Бумага состоит в том, что не так уж много эмпирических распределений степенного закона, которые решительно поддерживаются Цитируя результаты: «Только в одном случае - распределение частот встречаемости слов в английском тексте - степенной закон кажется действительно убедительным в том смысле, что он отлично подходит для данных, и ни одна из альтернатив не несет никакой вес."
Sycorax говорит восстановить Монику

Ответы:

31

Позвольте мне начать с отрицания предпосылки. Роберт Гири, вероятно, не преувеличивал случай, когда он сказал (в 1947 году) « ... нормальность - это миф; нормального распределения никогда не было и не будет » -
нормальное распределение - это модель *, приближение, которое иногда более или менее полезно.

* (о котором см. Джордж Бокс , хотя я предпочитаю версию в своем профиле).

То, что некоторые явления являются приблизительно нормальными, может не вызывать большого удивления, поскольку суммы независимых [или даже не слишком сильно коррелированных эффектов] следует делать, если их много, и ни одно из них не имеет существенной дисперсии по сравнению с дисперсией Сумма остальных, которые мы могли бы видеть, имеют тенденцию выглядеть более нормальной.

Центральная предельная теорема (которая относится к сходимости к нормальному распределению среднего значения выборки, когда уходит в бесконечность при некоторых мягких условиях), по крайней мере, предполагает, что мы можем увидеть тенденцию к этой нормальности при достаточно больших, но конечных размерах выборки.N

Конечно, если стандартизированные средства приблизительно нормальны, стандартизированные суммы будут; это причина рассуждения о «сумме многих эффектов». Так что, если есть много небольших вкладов в вариацию, и они не сильно коррелированы, вы можете увидеть это.

Теорема Берри-Эссеена дает нам утверждение о ней (сходимость к нормальным распределениям), которая на самом деле происходит со стандартизированными выборочными средствами для данных iid (в несколько более жестких условиях, чем для CLT, поскольку она требует, чтобы третий абсолютный момент был конечным), как а также рассказать нам о том, как быстро это происходит. Последующие версии теоремы имеют дело с неидентично распределенными компонентами в сумме , хотя верхние границы отклонения от нормальности менее жесткие.

Менее формально, поведение сверток с достаточно хорошими распределениями дает нам дополнительные (хотя и тесно связанные) причины подозревать, что во многих случаях это может быть хорошим приближением в конечных выборках. Свертка действует как своего рода «размывающий» оператор, с которым знакомы люди, использующие оценку плотности ядра в разных ядрах; как только вы стандартизируете результат (таким образом, дисперсия остается постоянной каждый раз, когда вы делаете такую ​​операцию), становится очевидным прогресс в направлении все более и более симметричных форм холма, когда вы неоднократно сглаживаете (и не имеет большого значения, если вы меняете ядро ​​каждый раз).

Терри Тао дает хорошее обсуждение версий центральной предельной теоремы и теоремы Берри-Эссеена здесь , а также упоминает подход к независимой версии Берри-Эссеена.

Так что есть по крайней мере один класс ситуаций, в которых мы можем ожидать его увидеть, и формальные причины полагать, что это действительно произойдет в таких ситуациях. Однако в лучшем случае любой смысл, что результат «сумм многих эффектов» будет нормальным, является приближенным. Во многих случаях это вполне разумное приближение (а в дополнительных случаях, даже если приближение распределения не близко, некоторые процедуры, предполагающие нормальность, не особенно чувствительны к распределению отдельных значений, по крайней мере, в больших выборках).

Есть много других обстоятельств, когда эффекты не «добавляются», и мы можем ожидать, что произойдут другие вещи; например, во многих финансовых данных эффекты, как правило, являются мультипликативными (эффекты будут перемещать суммы в процентном выражении, например, проценты и инфляция и обменные курсы). Там мы не ожидаем нормальности, но иногда можем наблюдать грубое приближение к нормальности в логарифмическом масштабе. В других ситуациях ни то, ни другое не подходит, даже в грубом смысле. Например, время между событиями обычно не будет хорошо аппроксимировано ни нормальностью, ни нормальностью бревен; здесь нет ни «сумм», ни «продуктов» эффектов, о которых можно спорить. Существует множество других явлений, которые мы можем привести в качестве аргумента для определенного вида «закона» в определенных обстоятельствах.

Glen_b - Восстановить Монику
источник
12
+1. Ваш аргумент начинает предполагать - вполне правдоподобно, на мой взгляд - что может быть психологический ответ на вопрос, такой как групповое мышление: когда все в вашей области видят нормальное распределение, кто вы такой, чтобы говорить иначе? Это особенно касается областей исследования, где статистические процедуры рассматриваются как инструменты для пешеходов, которые, возможно, необходимы для освящения бумаги для публикации, но в остальном имеют небольшую внутреннюю ценность или интерес.
whuber
2
Чтобы привести конкретный пример, когда Кетле изобрел ИМТ (индекс массы тела), он явно сделал это таким образом, чтобы получить нормально распределенное количество. Мы говорили об этом здесь: stats.stackexchange.com/questions/64171/…
Мэтт Краузе
Мне кажется, что все пытаются обойти этот вопрос, а не отвечать на него.
Дигио
Гири был статистиком, поэтому неудивительно, что нормальность - это миф. Если бы он был физиком, он увидел бы это по-другому.
Аксакал
Комментарии не для расширенного обсуждения; этот разговор был перенесен в чат .
Glen_b
20

Есть известное высказывание Габриэля Липпмана (физика, лауреата Нобелевской премии), сказанное Пуанкаре:

[Нормальное распределение] не может быть получено строгими выводами. Некоторые из его предполагаемых доказательств ужасны [...]. Тем не менее, все верят в это, как однажды сказал мне М. Липпманн, потому что экспериментаторы считают ее математической теоремой, а математики - экспериментальным фактом.

- Анри Пуанкаре, Le calcul des Probabilités . 1896

[Cette loi] ne s'obtient pas par de desductions rigoureuses; плюс демонстрация, посвященная воле и гроссмейстеру [...]. Во всем мире, я не знаю, что это такое, М. Липпманн, автомобильные эксперты с точки зрения математики и математики, не имеет ничего общего с экспериментированием.

Кажется, у нас нет этой цитаты в нашей ветке «Список статистических цитат», поэтому я подумал, что было бы хорошо опубликовать ее здесь.

амеба говорит восстановить монику
источник
Недостаток? Кто-то здесь тайно ненавидит Пуанкаре?
говорит амеба: восстанови монику
Мои физические знания заканчиваются тем, что я узнал в старшей школе, но разве Гаусс изначально не изучал распределение в контексте нормальных уравнений физики? У меня сложилось впечатление, что из Википедии гауссовские ошибки естественно выпадают из какой-то модели классической физики
shadowtalker
2
Мы должны чтить Липпман больше как автор этого словца . Габриэль Липпманн был лауреатом Нобелевской премии по физике. (М. здесь просто означает месье, naturellement.)
Ник Кокс
3
@ssdecontrol Насколько я помню, Гаусс интересовался обычными ошибками наблюдений , особенно в астрономии и геодезии, но достаточно умен, чтобы знать, что предположение было сомнительным. (Он также использовал, например, медиану абсолютного отклонения от медианы как устойчивую меру распространения в 1816 г.)
Ник Кокс
Справедливо, @ Ник. Я отредактировал, чтобы уточнить.
говорит амеба: восстанови Монику
7

Какой закон физики делает так, чтобы у многих природных явлений было нормальное распределение? Казалось бы, более интуитивно понятно, что они будут иметь равномерное распределение.

Нормальное распределение является обычным явлением в естественных науках. Обычное объяснение того, почему это происходит с ошибками измерения, заключается в некоторой форме больших чисел или рассуждениях центральной предельной теоремы (CLT), которые обычно выглядят так: «поскольку на результаты эксперимента влияет бесконечно большое количество возмущений, поступающих от несвязанных источников CLT предполагает, что ошибки будут нормально распределены ». Например, вот выдержка из статистических методов в анализе данных WJ Metzger:

Большая часть того, что мы измеряем, на самом деле является суммой многих rv. Например, вы измеряете длину таблицы с помощью линейки. Длина, которую вы измеряете, зависит от множества мелких эффектов: оптического параллакса, калибровки линейки, температуры, вашей дрожащей руки и т. Д. Цифровой измеритель имеет электронные помехи в различных местах в своей схеме. Таким образом, то, что вы измеряете, - это не только то, что вы хотите измерить, но и добавление к нему большого количества (надеюсь) небольших вкладов. Если это количество небольших вкладов велико, CLT сообщает нам, что их общая сумма распределена по Гауссу. Это часто имеет место и является причиной, по которой функции разрешения обычно являются гауссовыми.

Однако, как вы должны знать, это не означает, что каждый дистрибутив будет нормальным, конечно. Например, распределение Пуассона так же распространено в физике, когда речь идет о процессах счета. В спектроскопии распределение Коши (он же Брейт Вигнер) используется для описания формы спектров излучения и так далее.

Я понял это после того, как написал: все три упомянутых распределения (Гауссова, Пуассона, Коши) являются стабильными , а Пуассон дискретно устойчивым . Теперь, когда я подумал об этом, это кажется важным качеством распределения, которое заставит его пережить объединения: если вы добавите группу чисел из Пуассона, сумма будет пуассоновской. Это может «объяснить» (в некотором смысле), почему это так вездесуще.

В неестественных науках вы должны быть очень осторожны с применением нормального (или любого другого) распределения по ряду причин. В частности, корреляции и зависимости являются проблемой, потому что они могут нарушить допущения CLT. Например, в области финансов хорошо известно, что многие серии выглядят нормально, но имеют более тяжелые хвосты , что является большой проблемой в управлении рисками.

Наконец, в естественных науках есть более веские причины для нормального распределения, чем рассуждения типа «махания рукой», которые я приводил ранее. Рассмотрим броуновское движение. Если удары действительно независимы и бесконечно малы, то неизбежно распределение наблюдаемой траектории будет иметь нормальное распределение благодаря CLT, см., Например, уравнение (10) в известной работе Эйнштейна « ИССЛЕДОВАНИЯ ПО ТЕОРИИ БРАУНОВСКОГО ДВИЖЕНИЯ ». Он даже не удосужился назвать его сегодняшним названием «гауссовский» или «нормальный».

ΔИксΔпΔИксΔп

Следовательно, не удивляйтесь получению очень разных реакций на использование распределения Гаусса от исследователей в различных областях. В некоторых областях, таких как физика, ожидается, что некоторые явления будут естественным образом связаны с гауссовым распределением, основанным на очень твердой теории, опирающейся на огромное количество наблюдений. В других областях нормальное распределение используется для его технического удобства, удобных математических свойств или других сомнительных причин.

Аксакал
источник
1
+1. Цитата разумна, однако можно заметить, что измеренная длина не может быть отрицательной (то есть ограниченной), поэтому не может действительно следовать нормальному распределению. Это всегда приближение.
амеба говорит восстановить монику
Неестественные науки? Вы имеете в виду как непристойные эксперименты доктора Франкенштейна? ;-)
Sycorax говорит восстановить Monica
1
@ user777, это лауреат Нобелевской премии Ландау «s шутка :„науки можно разделить на три типа: естественные, неестественные и antinatural“
аксакал
@Aksakal: я думаю, что эта ссылка неверна; Ландау сказал, что науки делятся на «естественные, неестественные и противоестественные» (вместо «сверхъестественные»). Не знаю, как это перевести, хотя.
говорит амеба: восстанови Монику
@amoeba, я перевожу "неестественные" как "неестественные". «Сверхъестественные» - это «сверхъестественные», думает я. Может россияне меня поправят.
Аксакал
2

здесь очень много чрезмерно сложных объяснений ...

Хороший способ, которым это было связано со мной, является следующим:

  1. Бросьте один кубик, и вы получите равную вероятность бросить каждое число (1-6), и, следовательно, PDF-файл является постоянным.

  2. Бросьте два кубика и суммируйте результаты вместе, и PDF больше не будет постоянным. Это потому, что существует 36 комбинаций, а суммарный диапазон составляет от 2 до 12. Вероятность 2 - это уникальная единичная комбинация 1 + 1. Вероятность 12 также уникальна тем, что она может возникнуть только в одной комбинации 6 + 6. Теперь, глядя на 7, существует несколько комбинаций, то есть 3 + 4, 5 + 2 и 6 + 1 ( и их обратные перестановки). Когда вы работаете вдали от среднего значения (то есть 7), есть меньшие комбинации для 6 и 8 и т. Д., Пока вы не получите единственные комбинации 2 и 12. Этот пример не приводит к четкому нормальному распределению, но больше умирает Вы добавляете, и чем больше выборок вы берете, тем результат будет стремиться к нормальному распределению.

  3. Следовательно, если вы суммируете диапазон независимых переменных, подверженных случайным изменениям (каждый из которых может иметь свои собственные PDF-файлы), тем больше получаемый результат будет стремиться к нормальности. Это в терминах Шести Сигм дает нам то, что мы называем «Голосом процесса». Это то, что мы называем результатом «вариации по общей причине» системы, и, следовательно, если выходные данные стремятся к нормальности, то мы называем эту систему «в статистическом управлении процессом». Если выходные данные не являются нормальными (смещены или смещены), то мы говорим, что система подвержена «особой вариации причины», когда был какой-то «сигнал», который каким-то образом смещал результат.

Надеюсь, это поможет.

davidwm1968
источник
1

Какой закон физики делает так, чтобы у многих природных явлений было нормальное распределение?

Без понятия. С другой стороны, я также понятия не имею, правда ли это или что означает «так много».

Однако, немного реорганизовав проблему, есть веские основания предполагать (то есть моделировать ) непрерывную величину, которая, по вашему мнению, имеет фиксированное среднее значение и дисперсию с нормальным распределением. Это потому, что нормальное распределение является результатом максимизации энтропии с учетом этих моментов. Так как, грубо говоря, энтропия является мерой неопределенности, что делает Нормал наиболее некоммитальным или максимально неопределенным выбором формы распределения.

Теперь идея о том, что нужно выбирать распределение путем максимизации его энтропии с учетом известных ограничений, действительно имеет некоторую физическую поддержку в плане количества возможных способов их выполнения. Джейнс по статистической механике является стандартным справочником здесь.

Обратите внимание, что в то время как максимальная энтропия мотивирует нормальные распределения в этом случае, могут быть показаны различные виды ограничений, которые приводят к различным семействам распределений, например знакомая экспонента, пуассон, биномиал и т. Д.

Sivia and Skilling 2005, гл.5, имеет интуитивное обсуждение.

conjugateprior
источник