Почему часто предполагается гауссово распределение?

13

Цитата из статьи в Википедии об оценке параметров для наивного байесовского классификатора : «Типичное предположение состоит в том, что непрерывные значения, связанные с каждым классом, распределены в соответствии с распределением Гаусса».

Я понимаю, что распределение Гаусса удобно по аналитическим причинам. Тем не менее, есть ли другие реальные причины, чтобы сделать это предположение? Что, если популяция состоит из двух подгрупп населения (умные / тупые люди, большие / маленькие яблоки)?

lmsasu
источник
5
Возможно, из-за центральной предельной теоремы гауссовские распределения подходят для многих, хотя и не всех, измерений физических явлений? С подгруппами можно получить смешанные гауссовы распределения.
Дилип Сарвейт
1
В том же разделе (я предполагаю, что вы смотрите на наивную байесовскую статью) отмечается, что биннинг, вероятно, является лучшей идеей, если вы не знаете дистрибутив. Кто-то, вероятно, должен отредактировать статью в Википедии, чтобы было более понятно, что следует предполагать гауссов, только если он может спорить, почему он гауссов (например, вывести данные или следовать аддитивному шаблону CLT).
rm999
1
соответствующие: mathdl.maa.org/images/upload_library/22/Allendoerfer/…
Элвис

Ответы:

6

По крайней мере для меня предположение о нормальности вытекает из двух (очень убедительных) причин:

  1. Центральная предельная теорема.

  2. Распределение Гаусса является максимальным распределением энтропии (относительно непрерывной версии энтропии Шеннона).

Я думаю, что вы знаете о первом пункте: если ваша выборка является суммой многих процессов, то, пока удовлетворяются некоторые мягкие условия, распределение является в значительной степени гауссовым (есть обобщения CLT, где вы на самом деле не должны предположить, что rvs суммы одинаково распределены, см., например, CLT Ляпунова).

Второй момент - это тот, который для некоторых людей (особенно физиков) имеет больше смысла: учитывая первый и второй моменты распределения, распределение, которое предполагает меньшее количество информации (т.е. наиболее консервативное) в отношении непрерывной меры энтропии Шеннона (которая является несколько произвольно для непрерывного случая, но, по крайней мере для меня, абсолютно объективный в дискретном случае, но это другая история), это распределение Гаусса. Это форма так называемого «принципа максимальной энтропии», которая не так широко распространена, потому что фактическое использование формы энтропии несколько произвольно (см. Эту статью в Википедии для получения дополнительной информации об этой мере ).

Конечно, это последнее утверждение верно и для многовариантного случая, т. Е. Для максимального распределения энтропии (опять же, относительно непрерывной версии энтропии Шеннона), заданного первым ( ) и информацией второго порядка (т. Е. Ковариацией матрица ΣμΣ ) может быть показана как многомерная гауссовская.

П.Д .: Я должен добавить к принципу максимальной энтропии, что, согласно этой статье , если вам случится знать диапазон изменения вашей переменной, вы должны внести коррективы в распределение, которое вы получаете по принципу максимальной энтропии.

Нестора
источник
3

Мой ответ согласен с первым ответчиком. Центральная предельная теорема говорит вам, что если ваша статистика представляет собой сумму или среднее значение, она будет приблизительно нормальной при определенных технических условиях независимо от распределения отдельных выборок. Но вы правы, что иногда люди заходят слишком далеко только потому, что это кажется удобным. Если ваша статистика - это отношение, а знаменатель может быть равен нулю или близок к нему, отношение будет слишком тяжелым для нормального. Госсет обнаружил, что даже при выборке из нормального распределения нормализованного среднего, где стандартное отклонение выборки используется для константы нормализации, распределение представляет собой t-распределение с n-1 степенями свободы, когда n - размер выборки. В своих полевых экспериментах на пивоварне Гиннеса он имел размеры выборки от 5 до 10. В этих случаях распределение t аналогично стандартному нормальному распределению в том, что оно симметрично относительно 0, но имеет гораздо более тяжелые хвосты. Обратите внимание, что распределение t сходится к стандартной нормали, когда n становится большим. Во многих случаях распределение, которое вы имеете, может быть бимодальным, поскольку оно представляет собой смесь двух популяций. Иногда эти распределения могут быть подобраны как смесь нормальных распределений. Но они определенно не похожи на нормальное распределение. Если вы посмотрите на базовый учебник по статистике, вы найдете много параметрических непрерывных и дискретных распределений, которые часто возникают в задачах вывода. Для дискретных данных у нас есть бином, пуассоновский, геометрический, гипергеометрический и отрицательный бином, чтобы назвать несколько. Непрерывные примеры включают в себя квадрат Чи, логнормальный, Коши, отрицательную экспоненту, Вейбулла и Гамбеля.

Майкл Р. Черник
источник
2

Использование CLT для обоснования использования гауссовского распределения является распространенной ошибкой, поскольку CLT применяется к среднему значению выборки, а не к отдельным наблюдениям. Следовательно, увеличение размера выборки не означает, что выборка ближе к норме.

Распределение Гаусса обычно используется потому что:

  1. Оценка максимального правдоподобия проста.
  2. Байесовский вывод прост (с использованием сопряженных априоров или приоров типа Джеффриса).
  3. Это реализовано в большинстве числовых пакетов.
  4. Существует много теории об этом распределении с точки зрения проверки гипотез.
  5. Недостаток знаний о других вариантах (более гибкий). ...

Конечно, лучшим вариантом является использование дистрибутива, который учитывает характеристики вашего контекста, но это может быть сложной задачей. Тем не менее, это то, что люди должны делать

«Все должно быть сделано как можно проще, но не проще». (Альберт Эйнштейн)

Надеюсь, это поможет.

С наилучшими пожеланиями.

Тони
источник
Почему отрицательный голос? какой контраргумент для этого объяснения?
lmsasu
4
Убеждение, что «использование CLT для обоснования использования гауссовского распределения является распространенной ошибкой, поскольку CLT применяется к среднему значению выборки», само по себе является ошибкой. Например, электроны в проводнике движутся случайно. Мал заряд на каждый электрон вносит свой вклад чистого шума напряжения ( так называемый тепловой шум) , которое может быть измерено на выводах проводника. Каждый вклад мал, есть много электронов, и поэтому с помощью CLT шум моделируется как случайный гауссовский процесс. Эта модель была перекрестно проверена в многочисленных экспериментальных исследованиях.
Дилип Сарвейт
1
Этот первый абзац сбивает с толку и кажется не по теме. При применении CLT мы часто говорим, что распределение является гауссовым, потому что каждое отдельное наблюдение является суммой / средним числом многих процессов. Если первый абзац был удален, я думаю, что это был бы хороший ответ.
rm999
1
@ rm999 «Если бы первый абзац был удален, я думаю, это был бы хороший ответ». Фактически, первый абзац является сутью ответа, поскольку остальные просто указывают на то, как гауссовская модель полезна аналитически - что ОП уже понимает - и не отвечает на заданный вопрос.
Dilip Sarwate
@Dilip: (+1) Ядро очень хорошего ответа присутствует в вашем первом комментарии. Пожалуйста, рассмотрите вопрос об этом в отдельном посте.
кардинал