На странице Википедии о наивных байесовских классификаторах есть такая строка:
(Распределение вероятностей по 1 в порядке. Это площадь под кривой колокола, равная 1.)
Как значение может быть в порядке? Я думал, что все значения вероятности были выражены в диапазоне . Кроме того, учитывая, что такое значение возможно, как оно получается в примере, показанном на странице?0 ≤ p ≤ 1
distributions
probability
normal-distribution
pdf
babelproofreader
источник
источник
p
для плотности вероятности и верхний регистрP
для вероятностиОтветы:
Эта вики-страница использует ненормативную лексику, ссылаясь на этот номер как на вероятность. Вы правы, что это не так. Это на самом деле вероятность на фут . В частности, значение 1,5579 (для высоты 6 футов) подразумевает, что вероятность роста, скажем, от 5,99 до 6,01 фута, близка к следующему безразмерному значению:
Это значение не должно превышать 1, как вы знаете. (Небольшой диапазон высот (0,02 в этом примере) является важной частью вероятностного аппарата. Это «дифференциал» высоты, который я сокращу .) Вероятности на единицу чего-либо называемые плотности по аналогии с другими плотностями, как масса на единицу объема.d(height)
Достоверные плотности вероятности могут иметь сколь угодно большие значения, даже бесконечные.
В этом примере показана функция плотности вероятности для гамма-распределения (с параметром формы и масштабом ). Поскольку большая часть плотности меньше , кривая должна подниматься выше , чтобы иметь общую площадь необходимую для всех распределений вероятности.1 / 5 1 1 13/2 1/5 1 1 1
Эта плотность (для бета-распределения с параметрами ) становится бесконечной при и при . Общая площадь все еще конечна (и равна )!0 1 11/2,1/10 0 1 1
Значение 1,5789 / фут получается в этом примере путем оценки того, что высота мужчин имеет нормальное распределение со средним значением 5,855 футов и дисперсией 3,50e-2 квадратных фута. (Это можно найти в предыдущей таблице.) Квадратным корнем этой дисперсии является стандартное отклонение 0,18717 футов. Мы повторно выражаем 6 футов как число SD от среднего значения:
Деление на стандартное отклонение дает отношение
Нормальная плотность вероятности, по определению, равна
(На самом деле, я обманул: я просто попросил Excel вычислить NORMDIST (6, 5.855, 0.18717, FALSE). Но потом я действительно проверил это по формуле, чтобы быть уверенным.) Когда мы убираем существенный дифференциал из формулы остается только число , как улыбка Чеширского кота. Мы, читатели, должны понимать, что число должно быть умножено на небольшую разницу в высотах, чтобы получить вероятность.1,5789d(height) 1.5789
источник
Это распространенная ошибка, связанная с непониманием разницы между функциями вероятности, где переменная дискретна, и функциями плотности вероятности, где переменная непрерывна. Смотрите Что такое распределение вероятностей :
источник
источник
Я не знаю, была ли статья в Википедии отредактирована после первоначальных сообщений в этой теме, но теперь она говорит: «Обратите внимание, что значение больше 1 здесь хорошо - это скорее плотность вероятности, чем вероятность, потому что высота непрерывная переменная. ", и, по крайней мере, в этом непосредственном контексте, P используется для вероятности, а p используется для плотности вероятности. Да, очень неряшливо, поскольку в некоторых местах p обозначает вероятность, а в других - плотность вероятности.
Вернуться к первоначальному вопросу "Может ли значение распределения вероятностей, превышающее 1, быть в порядке?" Нет, но я видел, как это было сделано (см. Мой последний абзац ниже).
Вот как интерпретировать вероятность> 1. Прежде всего, обратите внимание, что люди могут и действительно дают 150% усилий, как мы часто слышим в спорте и иногда работаем https://www.youtube.com/watch?v=br_vSdAOHQQ . Если вы уверены, что что-то случится, это вероятность 1. Вероятность 1,5 может быть истолкована, поскольку вы на 150% уверены, что событие произойдет - что-то вроде 150% усилий.
И если вы можете иметь вероятность> 1, я полагаю, что вы можете иметь вероятность <0. Отрицательные вероятности можно интерпретировать следующим образом. Вероятность 0,001 означает, что вероятность того, что событие произойдет, практически отсутствует. Вероятность = 0 означает «нет пути». Отрицательная вероятность, такая как -1,2, соответствует «Вы собираетесь шутить».
источник
источник
Значение точки при конкретном значении параметра графика плотности вероятности было бы вероятностью, верно? Если это так, то утверждение можно исправить, просто изменив P (рост | мужчина) на L (рост | мужчина).
источник