Я думаю, что это увлекательная тема, и я не до конца ее понимаю. Какой закон физики делает так, чтобы у многих природных явлений было нормальное распределение? Казалось бы, более интуитивно понятно, что они будут иметь равномерное распределение.
Мне так трудно это понять, и я чувствую, что мне не хватает некоторой информации. Может ли кто-нибудь помочь мне с хорошим объяснением или связать меня с книгой / видео / статьей?
Ответы:
Позвольте мне начать с отрицания предпосылки. Роберт Гири, вероятно, не преувеличивал случай, когда он сказал (в 1947 году) « ... нормальность - это миф; нормального распределения никогда не было и не будет » -
нормальное распределение - это модель *, приближение, которое иногда более или менее полезно.
То, что некоторые явления являются приблизительно нормальными, может не вызывать большого удивления, поскольку суммы независимых [или даже не слишком сильно коррелированных эффектов] следует делать, если их много, и ни одно из них не имеет существенной дисперсии по сравнению с дисперсией Сумма остальных, которые мы могли бы видеть, имеют тенденцию выглядеть более нормальной.
Центральная предельная теорема (которая относится к сходимости к нормальному распределению среднего значения выборки, когда уходит в бесконечность при некоторых мягких условиях), по крайней мере, предполагает, что мы можем увидеть тенденцию к этой нормальности при достаточно больших, но конечных размерах выборки.N
Конечно, если стандартизированные средства приблизительно нормальны, стандартизированные суммы будут; это причина рассуждения о «сумме многих эффектов». Так что, если есть много небольших вкладов в вариацию, и они не сильно коррелированы, вы можете увидеть это.
Теорема Берри-Эссеена дает нам утверждение о ней (сходимость к нормальным распределениям), которая на самом деле происходит со стандартизированными выборочными средствами для данных iid (в несколько более жестких условиях, чем для CLT, поскольку она требует, чтобы третий абсолютный момент был конечным), как а также рассказать нам о том, как быстро это происходит. Последующие версии теоремы имеют дело с неидентично распределенными компонентами в сумме , хотя верхние границы отклонения от нормальности менее жесткие.
Менее формально, поведение сверток с достаточно хорошими распределениями дает нам дополнительные (хотя и тесно связанные) причины подозревать, что во многих случаях это может быть хорошим приближением в конечных выборках. Свертка действует как своего рода «размывающий» оператор, с которым знакомы люди, использующие оценку плотности ядра в разных ядрах; как только вы стандартизируете результат (таким образом, дисперсия остается постоянной каждый раз, когда вы делаете такую операцию), становится очевидным прогресс в направлении все более и более симметричных форм холма, когда вы неоднократно сглаживаете (и не имеет большого значения, если вы меняете ядро каждый раз).
Терри Тао дает хорошее обсуждение версий центральной предельной теоремы и теоремы Берри-Эссеена здесь , а также упоминает подход к независимой версии Берри-Эссеена.
Так что есть по крайней мере один класс ситуаций, в которых мы можем ожидать его увидеть, и формальные причины полагать, что это действительно произойдет в таких ситуациях. Однако в лучшем случае любой смысл, что результат «сумм многих эффектов» будет нормальным, является приближенным. Во многих случаях это вполне разумное приближение (а в дополнительных случаях, даже если приближение распределения не близко, некоторые процедуры, предполагающие нормальность, не особенно чувствительны к распределению отдельных значений, по крайней мере, в больших выборках).
Есть много других обстоятельств, когда эффекты не «добавляются», и мы можем ожидать, что произойдут другие вещи; например, во многих финансовых данных эффекты, как правило, являются мультипликативными (эффекты будут перемещать суммы в процентном выражении, например, проценты и инфляция и обменные курсы). Там мы не ожидаем нормальности, но иногда можем наблюдать грубое приближение к нормальности в логарифмическом масштабе. В других ситуациях ни то, ни другое не подходит, даже в грубом смысле. Например, время между событиями обычно не будет хорошо аппроксимировано ни нормальностью, ни нормальностью бревен; здесь нет ни «сумм», ни «продуктов» эффектов, о которых можно спорить. Существует множество других явлений, которые мы можем привести в качестве аргумента для определенного вида «закона» в определенных обстоятельствах.
источник
Есть известное высказывание Габриэля Липпмана (физика, лауреата Нобелевской премии), сказанное Пуанкаре:
Кажется, у нас нет этой цитаты в нашей ветке «Список статистических цитат», поэтому я подумал, что было бы хорошо опубликовать ее здесь.
источник
Нормальное распределение является обычным явлением в естественных науках. Обычное объяснение того, почему это происходит с ошибками измерения, заключается в некоторой форме больших чисел или рассуждениях центральной предельной теоремы (CLT), которые обычно выглядят так: «поскольку на результаты эксперимента влияет бесконечно большое количество возмущений, поступающих от несвязанных источников CLT предполагает, что ошибки будут нормально распределены ». Например, вот выдержка из статистических методов в анализе данных WJ Metzger:
Однако, как вы должны знать, это не означает, что каждый дистрибутив будет нормальным, конечно. Например, распределение Пуассона так же распространено в физике, когда речь идет о процессах счета. В спектроскопии распределение Коши (он же Брейт Вигнер) используется для описания формы спектров излучения и так далее.
Я понял это после того, как написал: все три упомянутых распределения (Гауссова, Пуассона, Коши) являются стабильными , а Пуассон дискретно устойчивым . Теперь, когда я подумал об этом, это кажется важным качеством распределения, которое заставит его пережить объединения: если вы добавите группу чисел из Пуассона, сумма будет пуассоновской. Это может «объяснить» (в некотором смысле), почему это так вездесуще.
В неестественных науках вы должны быть очень осторожны с применением нормального (или любого другого) распределения по ряду причин. В частности, корреляции и зависимости являются проблемой, потому что они могут нарушить допущения CLT. Например, в области финансов хорошо известно, что многие серии выглядят нормально, но имеют более тяжелые хвосты , что является большой проблемой в управлении рисками.
Наконец, в естественных науках есть более веские причины для нормального распределения, чем рассуждения типа «махания рукой», которые я приводил ранее. Рассмотрим броуновское движение. Если удары действительно независимы и бесконечно малы, то неизбежно распределение наблюдаемой траектории будет иметь нормальное распределение благодаря CLT, см., Например, уравнение (10) в известной работе Эйнштейна « ИССЛЕДОВАНИЯ ПО ТЕОРИИ БРАУНОВСКОГО ДВИЖЕНИЯ ». Он даже не удосужился назвать его сегодняшним названием «гауссовский» или «нормальный».
Следовательно, не удивляйтесь получению очень разных реакций на использование распределения Гаусса от исследователей в различных областях. В некоторых областях, таких как физика, ожидается, что некоторые явления будут естественным образом связаны с гауссовым распределением, основанным на очень твердой теории, опирающейся на огромное количество наблюдений. В других областях нормальное распределение используется для его технического удобства, удобных математических свойств или других сомнительных причин.
источник
здесь очень много чрезмерно сложных объяснений ...
Хороший способ, которым это было связано со мной, является следующим:
Бросьте один кубик, и вы получите равную вероятность бросить каждое число (1-6), и, следовательно, PDF-файл является постоянным.
Бросьте два кубика и суммируйте результаты вместе, и PDF больше не будет постоянным. Это потому, что существует 36 комбинаций, а суммарный диапазон составляет от 2 до 12. Вероятность 2 - это уникальная единичная комбинация 1 + 1. Вероятность 12 также уникальна тем, что она может возникнуть только в одной комбинации 6 + 6. Теперь, глядя на 7, существует несколько комбинаций, то есть 3 + 4, 5 + 2 и 6 + 1 ( и их обратные перестановки). Когда вы работаете вдали от среднего значения (то есть 7), есть меньшие комбинации для 6 и 8 и т. Д., Пока вы не получите единственные комбинации 2 и 12. Этот пример не приводит к четкому нормальному распределению, но больше умирает Вы добавляете, и чем больше выборок вы берете, тем результат будет стремиться к нормальному распределению.
Следовательно, если вы суммируете диапазон независимых переменных, подверженных случайным изменениям (каждый из которых может иметь свои собственные PDF-файлы), тем больше получаемый результат будет стремиться к нормальности. Это в терминах Шести Сигм дает нам то, что мы называем «Голосом процесса». Это то, что мы называем результатом «вариации по общей причине» системы, и, следовательно, если выходные данные стремятся к нормальности, то мы называем эту систему «в статистическом управлении процессом». Если выходные данные не являются нормальными (смещены или смещены), то мы говорим, что система подвержена «особой вариации причины», когда был какой-то «сигнал», который каким-то образом смещал результат.
Надеюсь, это поможет.
источник
Без понятия. С другой стороны, я также понятия не имею, правда ли это или что означает «так много».
Однако, немного реорганизовав проблему, есть веские основания предполагать (то есть моделировать ) непрерывную величину, которая, по вашему мнению, имеет фиксированное среднее значение и дисперсию с нормальным распределением. Это потому, что нормальное распределение является результатом максимизации энтропии с учетом этих моментов. Так как, грубо говоря, энтропия является мерой неопределенности, что делает Нормал наиболее некоммитальным или максимально неопределенным выбором формы распределения.
Теперь идея о том, что нужно выбирать распределение путем максимизации его энтропии с учетом известных ограничений, действительно имеет некоторую физическую поддержку в плане количества возможных способов их выполнения. Джейнс по статистической механике является стандартным справочником здесь.
Обратите внимание, что в то время как максимальная энтропия мотивирует нормальные распределения в этом случае, могут быть показаны различные виды ограничений, которые приводят к различным семействам распределений, например знакомая экспонента, пуассон, биномиал и т. Д.
Sivia and Skilling 2005, гл.5, имеет интуитивное обсуждение.
источник