Может ли значение распределения вероятности, превышающее 1, быть в порядке?

149

На странице Википедии о наивных байесовских классификаторах есть такая строка:

p(height|male)=1.5789 (Распределение вероятностей по 1 в порядке. Это площадь под кривой колокола, равная 1.)

Как значение может быть в порядке? Я думал, что все значения вероятности были выражены в диапазоне . Кроме того, учитывая, что такое значение возможно, как оно получается в примере, показанном на странице?0 p 1>10p1

babelproofreader
источник
2
Когда я увидел, что мне показалось, что это может быть высота функции плотности вероятности, которая может быть любым положительным числом, если оно интегрируется по любому интервалу, интеграл меньше или равен 1. Википедия должна исправить эту запись.
Майкл Черник
16
Поскольку это могло бы помочь будущим читателям, я предлагаю геометрический перевод общей части этого вопроса: «Как форма, площадь которой не превышает может расширяться более в любом направлении?» В частности, форма - это та часть верхней полуплоскости, ограниченная сверху графиком PDF, и рассматриваемое направление является вертикальным. В геометрической обстановке (без вероятностной интерпретации) легко придумать примеры, например, прямоугольник с основанием не более и высотой . 1 1 / 2 2111/22
whuber
статья в Википедии теперь использует нижний регистр pдля плотности вероятности и верхний регистр Pдля вероятности
Aprillion
Я просто собираюсь оставить это здесь для следующего парня: en.wikipedia.org/wiki/Dirac_delta_function
Джошуа
1
Стоит отметить, что функция кумулятивного распределения (неотъемлемая часть PDF) не может быть выше 1. Во многих случаях CDF намного более интуитивно понятен в использовании.
naught101

Ответы:

168

Эта вики-страница использует ненормативную лексику, ссылаясь на этот номер как на вероятность. Вы правы, что это не так. Это на самом деле вероятность на фут . В частности, значение 1,5579 (для высоты 6 футов) подразумевает, что вероятность роста, скажем, от 5,99 до 6,01 фута, близка к следующему безразмерному значению:

1.5789[1/foot]×(6.015.99)[feet]=0.0316

Это значение не должно превышать 1, как вы знаете. (Небольшой диапазон высот (0,02 в этом примере) является важной частью вероятностного аппарата. Это «дифференциал» высоты, который я сокращу .) Вероятности на единицу чего-либо называемые плотности по аналогии с другими плотностями, как масса на единицу объема.d(height)

Достоверные плотности вероятности могут иметь сколь угодно большие значения, даже бесконечные.

Гамма-распределение

В этом примере показана функция плотности вероятности для гамма-распределения (с параметром формы и масштабом ). Поскольку большая часть плотности меньше , кривая должна подниматься выше , чтобы иметь общую площадь необходимую для всех распределений вероятности.1 / 5 1 1 13/21/5111

Бета-версия

Эта плотность (для бета-распределения с параметрами ) становится бесконечной при и при . Общая площадь все еще конечна (и равна )!0 1 11/2,1/10011


Значение 1,5789 / фут получается в этом примере путем оценки того, что высота мужчин имеет нормальное распределение со средним значением 5,855 футов и дисперсией 3,50e-2 квадратных фута. (Это можно найти в предыдущей таблице.) Квадратным корнем этой дисперсии является стандартное отклонение 0,18717 футов. Мы повторно выражаем 6 футов как число SD от среднего значения:

z=(65.855)/0.18717=0.7747

Деление на стандартное отклонение дает отношение

dz=d(height)/0.18717

Нормальная плотность вероятности, по определению, равна

12πexp(z2/2)dz=0.29544 d(height)/0.18717=1.5789 d(height).

(На самом деле, я обманул: я просто попросил Excel вычислить NORMDIST (6, 5.855, 0.18717, FALSE). Но потом я действительно проверил это по формуле, чтобы быть уверенным.) Когда мы убираем существенный дифференциал из формулы остается только число , как улыбка Чеширского кота. Мы, читатели, должны понимать, что число должно быть умножено на небольшую разницу в высотах, чтобы получить вероятность.1,5789d(height)1.5789

Whuber
источник
Я отмечаю, что пример, приведенный на этой вики-странице, использует плотности вероятностей вместо фактических вероятностей для расчета последующих значений, вероятно, потому, что аспект на единицу не является необходимым для сравнительных целей, если сравниваемые единицы одинаковы. Расширяя это, если кто-то не хочет принимать нормальность, но вместо этого у него есть эмпирические данные, из которых можно оценить плотность, например, оценку плотности ядра, было бы правильным использовать показание при данном значении на оси x из этого kde в качестве входных данных для расчета постеров в наивном байесовском классификаторе, предполагая, что он равен единице?
babelproofreader
1
@babelproofreader Я полагаю, что постеры являются байесовскими обновлениями, через данные обучения, приоров. Непонятно, как kde может быть истолковано подобным образом, но я не эксперт в этой области. Ваш вопрос достаточно интересен, поэтому вы можете разместить его отдельно.
whuber
Как вы определяете, что такое хороший дифференциал? Что если вы выбрали вместо этого дифференциал 1? вероятность тогда будет больше 1? Извините за мою путаницу здесь. Вы можете объяснить?
fiacobelli
3
@tree Площадь треугольника - это половина произведения длины его основания и его высоты.
whuber
1
@ user929304 Вы можете обратиться к любому теоретическому учебнику, который вам нравится: это часть основ вероятности и статистики. Эта конкретная концепция плотности вероятности хорошо обсуждается в лучших вводных учебниках, таких как Freedman, Pisani и Purves .
whuber
43

Это распространенная ошибка, связанная с непониманием разницы между функциями вероятности, где переменная дискретна, и функциями плотности вероятности, где переменная непрерывна. Смотрите Что такое распределение вероятностей :

функции непрерывной вероятности определены для бесконечного числа точек в непрерывном интервале, вероятность в одной точке всегда равна нулю. Вероятности измеряются по интервалам, а не по отдельным точкам. То есть область под кривой между двумя различными точками определяет вероятность для этого интервала. Это означает, что высота функции вероятности может фактически быть больше единицы. Свойство того, что интеграл должен равняться единице, эквивалентно свойству для дискретных распределений, что сумма всех вероятностей должна равняться единице.

Тристан
источник
14
NIST обычно является авторитетным, но здесь он технически некорректен (и неграмотен для загрузки): вероятность, определенная в «бесконечном количестве точек», не означает, что «вероятность в одной точке всегда равна нулю». Конечно, они просто увлекаются бесконечным количеством элементов, но рассуждения здесь вводят в заблуждение. Для них было бы лучше просто опустить первое предложение в цитате.
whuber
Предполагая гипотетический непрерывный PDF, вероятность в одной точке, как правило, бесконечно мала (подумайте о границах в исчислении). Если бы, вероятно, был «всегда ноль», то, по определению , такой результат был бы невозможен.
Нобар
23

[a,b]1/(ba)ba11/(ba)

[0,0.5]1/(0.50)=2[0,0.1]10


источник
4

Я не знаю, была ли статья в Википедии отредактирована после первоначальных сообщений в этой теме, но теперь она говорит: «Обратите внимание, что значение больше 1 здесь хорошо - это скорее плотность вероятности, чем вероятность, потому что высота непрерывная переменная. ", и, по крайней мере, в этом непосредственном контексте, P используется для вероятности, а p используется для плотности вероятности. Да, очень неряшливо, поскольку в некоторых местах p обозначает вероятность, а в других - плотность вероятности.

Вернуться к первоначальному вопросу "Может ли значение распределения вероятностей, превышающее 1, быть в порядке?" Нет, но я видел, как это было сделано (см. Мой последний абзац ниже).

Вот как интерпретировать вероятность> 1. Прежде всего, обратите внимание, что люди могут и действительно дают 150% усилий, как мы часто слышим в спорте и иногда работаем https://www.youtube.com/watch?v=br_vSdAOHQQ . Если вы уверены, что что-то случится, это вероятность 1. Вероятность 1,5 может быть истолкована, поскольку вы на 150% уверены, что событие произойдет - что-то вроде 150% усилий.

И если вы можете иметь вероятность> 1, я полагаю, что вы можете иметь вероятность <0. Отрицательные вероятности можно интерпретировать следующим образом. Вероятность 0,001 означает, что вероятность того, что событие произойдет, практически отсутствует. Вероятность = 0 означает «нет пути». Отрицательная вероятность, такая как -1,2, соответствует «Вы собираетесь шутить».

PyPyPyPyPyPyPyPyподняться примерно до 1,8. И вот как барьер единства был сломан в вероятности. Но парень не знал, что совершил этот новаторский подвиг, пока я не указал ему на это, просто выполнив быстрые вычисления на научном калькуляторе Casio размером с батарейку с питанием от батареи в затемненном конференц-зале (не мог сделать это с калькулятор на солнечных батареях). Это было бы похоже на то, как Чак Йегер отправился на воскресную прогулку в своем самолете, и только через несколько месяцев ему сообщили, что он преодолел звуковой барьер.

Марк Л. Стоун
источник
Крутая история. У вас есть больше информации по этому поводу, например, цитата?
Джей Шайлер Раадт
1
@ Jay Schyler Raadt Это задокументировано на stats.stackexchange.com/questions/4220/… , ха-ха.
Марк Л. Стоун
0

Xf(x)f(x)dxf(x)f(height|male)f(height|male)dheight

XP(X[x,x+dx))=f(x)dxP(X[a,b])=abf(x)dxP(X=x)=P(X[x,x])=0

Esmailian
источник
-1

Значение точки при конкретном значении параметра графика плотности вероятности было бы вероятностью, верно? Если это так, то утверждение можно исправить, просто изменив P (рост | мужчина) на L (рост | мужчина).

Майкл Лью
источник