Цитата из статьи в Википедии об оценке параметров для наивного байесовского классификатора : «Типичное предположение состоит в том, что непрерывные значения, связанные с каждым классом, распределены в соответствии с распределением Гаусса».
Я понимаю, что распределение Гаусса удобно по аналитическим причинам. Тем не менее, есть ли другие реальные причины, чтобы сделать это предположение? Что, если популяция состоит из двух подгрупп населения (умные / тупые люди, большие / маленькие яблоки)?
normal-distribution
lmsasu
источник
источник
Ответы:
По крайней мере для меня предположение о нормальности вытекает из двух (очень убедительных) причин:
Центральная предельная теорема.
Распределение Гаусса является максимальным распределением энтропии (относительно непрерывной версии энтропии Шеннона).
Я думаю, что вы знаете о первом пункте: если ваша выборка является суммой многих процессов, то, пока удовлетворяются некоторые мягкие условия, распределение является в значительной степени гауссовым (есть обобщения CLT, где вы на самом деле не должны предположить, что rvs суммы одинаково распределены, см., например, CLT Ляпунова).
Второй момент - это тот, который для некоторых людей (особенно физиков) имеет больше смысла: учитывая первый и второй моменты распределения, распределение, которое предполагает меньшее количество информации (т.е. наиболее консервативное) в отношении непрерывной меры энтропии Шеннона (которая является несколько произвольно для непрерывного случая, но, по крайней мере для меня, абсолютно объективный в дискретном случае, но это другая история), это распределение Гаусса. Это форма так называемого «принципа максимальной энтропии», которая не так широко распространена, потому что фактическое использование формы энтропии несколько произвольно (см. Эту статью в Википедии для получения дополнительной информации об этой мере ).
Конечно, это последнее утверждение верно и для многовариантного случая, т. Е. Для максимального распределения энтропии (опять же, относительно непрерывной версии энтропии Шеннона), заданного первым ( ) и информацией второго порядка (т. Е. Ковариацией матрица Σμ⃗ Σ ) может быть показана как многомерная гауссовская.
П.Д .: Я должен добавить к принципу максимальной энтропии, что, согласно этой статье , если вам случится знать диапазон изменения вашей переменной, вы должны внести коррективы в распределение, которое вы получаете по принципу максимальной энтропии.
источник
Мой ответ согласен с первым ответчиком. Центральная предельная теорема говорит вам, что если ваша статистика представляет собой сумму или среднее значение, она будет приблизительно нормальной при определенных технических условиях независимо от распределения отдельных выборок. Но вы правы, что иногда люди заходят слишком далеко только потому, что это кажется удобным. Если ваша статистика - это отношение, а знаменатель может быть равен нулю или близок к нему, отношение будет слишком тяжелым для нормального. Госсет обнаружил, что даже при выборке из нормального распределения нормализованного среднего, где стандартное отклонение выборки используется для константы нормализации, распределение представляет собой t-распределение с n-1 степенями свободы, когда n - размер выборки. В своих полевых экспериментах на пивоварне Гиннеса он имел размеры выборки от 5 до 10. В этих случаях распределение t аналогично стандартному нормальному распределению в том, что оно симметрично относительно 0, но имеет гораздо более тяжелые хвосты. Обратите внимание, что распределение t сходится к стандартной нормали, когда n становится большим. Во многих случаях распределение, которое вы имеете, может быть бимодальным, поскольку оно представляет собой смесь двух популяций. Иногда эти распределения могут быть подобраны как смесь нормальных распределений. Но они определенно не похожи на нормальное распределение. Если вы посмотрите на базовый учебник по статистике, вы найдете много параметрических непрерывных и дискретных распределений, которые часто возникают в задачах вывода. Для дискретных данных у нас есть бином, пуассоновский, геометрический, гипергеометрический и отрицательный бином, чтобы назвать несколько. Непрерывные примеры включают в себя квадрат Чи, логнормальный, Коши, отрицательную экспоненту, Вейбулла и Гамбеля.
источник
Использование CLT для обоснования использования гауссовского распределения является распространенной ошибкой, поскольку CLT применяется к среднему значению выборки, а не к отдельным наблюдениям. Следовательно, увеличение размера выборки не означает, что выборка ближе к норме.
Распределение Гаусса обычно используется потому что:
Конечно, лучшим вариантом является использование дистрибутива, который учитывает характеристики вашего контекста, но это может быть сложной задачей. Тем не менее, это то, что люди должны делать
«Все должно быть сделано как можно проще, но не проще». (Альберт Эйнштейн)
Надеюсь, это поможет.
С наилучшими пожеланиями.
источник