«Общая площадь под функцией плотности вероятности равна 1» - относительно чего?

20

Концептуально я понимаю значение фразы «общая площадь под PDF равна 1». Это должно означать, что шансы на результат в общем интервале возможностей составляют 100%.

Но я не могу понять это с «геометрической» точки зрения. Если, например, в PDF ось x представляет длину, общая площадь под кривой не станет больше, если x измеряется в мм, а не в км?

Я всегда стараюсь представить, как будет выглядеть область под кривой, если функция будет сплющена до прямой линии. Будет ли высота (положение на оси Y) этой линии одинаковой для любого PDF-файла или будет иметь значение, зависящее от интервала на оси X, для которого определена функция?

TheChymera
источник
Вы можете изменить масштаб оси Икс с км на мм, но что это будет означать? У вас все еще будет та же самая картина и еще шесть нулей для единиц на оси Икс . Вы можете увеличивать или уменьшать масштаб, если хотите, но это не изменит изображение. Между тем, если кривая pdf является прямой горизонтальной линией (что подразумевает равномерное распределение), ее положение на оси Y не зависит от единиц оси Икс а только от длины интервала на оси Икс . Не уверен, насколько это полезно для вас, но для меня идея увеличения и уменьшения масштаба облегчает понимание.
Ричард Харди
2
Это похоже на правду. Но это своего рода использование (по общему признанию странного) увеличительного стекла, которое увеличивается в горизонтальном направлении на 1000 и в то же время пропорционально сжимается в вертикальном направлении. Но суть картины не изменится, если вы только измените масштаб.
Ричард Харди
2
Мне кажется, что этот вопрос совпадает с заданным (по-другому) и полученным ответом на stats.stackexchange.com/questions/4220/… .
whuber
1
@amoeba, Да, хотя многие могут чувствовать себя вынужденными голосовать за более длинный ответ в знак признания приложенных к нему усилий (что я и сделал, кстати), Аксакал ответил на мой вопрос гораздо яснее и лаконичнее. Честно говоря, я бы сказал, что ответ Сильверфиша также помог и пришел в ближайшую секунду.
TheChymera
2
@amoeba Совершенно другое направление ответа могло бы заключаться в том, чтобы сосредоточить внимание на том факте, что PDF-файлы являются производными от CDF, поэтому область под PDF является просто ограничивающим значением CDF - которое однозначно независимо от используемых единиц. У меня было искушение включить короткий раздел по этому вопросу, но я чувствовал, что мой ответ уже был достаточно длинным (и, кроме того, ключ к проблеме ОП, казалось, был проблемой подразделений, которую подход CDF скорее обходит).
Серебряная рыба

Ответы:

14

Функция плотности вероятности измеряется в процентах на единицу измерения вашей оси X. Допустим, в данной точке x0 ваш PDF равен 1000. Это означает, что вероятность x0<x<x0+dx равна 1000dx гдеdx в метрах. Если вы измените единицы измерения на сантиметры, то вероятность не должна измениться за тот же интервал, но тот же интервал имеет на 100 сантиметров больше, чем метров, поэтому1000dx=PDF(x0)100dx и, решая, получаемPDF(x0)=PDF(x0)100 . В 100 раз меньше единиц вероятности (процентов) на сантиметр, чем на метр.

Аксакал
источник
46

Это может помочь вам понять, что вертикальная ось измеряется как плотность вероятности . Таким образом, если горизонтальная ось измеряется в км, то вертикальная ось измеряется как плотность вероятности «на км». Предположим, мы нарисуем прямоугольный элемент на такой сетке, ширина которой составляет 5 км, а высота - 0,1 км / км (которую вы можете предпочесть записать как «км - 1 »). Площадь этого прямоугольника составляет 5 км х 0,1 км - 1 = 0,5. Подразделения отменяются, и у нас остается только половина вероятности.11

Если вы изменили горизонтальные единицы на «метры», вам придется изменить вертикальные единицы на «на метр». Прямоугольник теперь будет шириной 5000 метров и будет иметь плотность (высоту) 0,0001 на метр. Вы все еще остались с вероятностью одной половины. Вы можете быть обеспокоены тем, как странно эти два графика будут выглядеть на странице по сравнению друг с другом (не нужно ли быть намного шире и короче другого?), Но когда вы физически рисуете графики, вы можете использовать все, что угодно. масштабировать вам нравится. Посмотрите ниже, чтобы увидеть, как мало странностей нужно задействовать.

Возможно, вам будет полезно рассмотреть гистограммы, прежде чем переходить к кривым плотности вероятности. Во многом они аналогичны. Вертикальная ось гистограммы - это плотность частоты [на единицу ],x а области представляют частоты, опять же, потому что горизонтальные и вертикальные единицы сокращаются при умножении. Кривая PDF - это своего рода непрерывная версия гистограммы с общей частотой, равной единице.

Еще более близкой аналогией является гистограмма относительной частоты - мы говорим, что такая гистограмма была «нормализована», так что элементы площади теперь представляют пропорции вашего исходного набора данных, а не необработанные частоты, и общая площадь всех столбцов равна единице. Высоты теперь представляют собой относительные плотности частот [на единицу ]x . Если гистограмма относительной частоты имеет полосу, которая проходит вдоль xзначения от 20 км до 25 км (таким образом, ширина полосы равна 5 км) и имеет относительную плотность частоты 0,1 на км, тогда эта полоса содержит 0,5 процента данных. Это в точности соответствует идее о том, что случайно выбранный элемент из вашего набора данных с вероятностью 50% лежит в этом баре. Предыдущий аргумент о влиянии изменений в единицах по-прежнему применяется: сравните пропорции данных, лежащих на полосе от 20 до 25 км, с данными на полосе от 20 000 до 25 000 метров для этих двух участков. Вы также можете арифметически подтвердить, что площади всех баров в обоих случаях равны единице.

Гистограммы относительной частоты с разными единицами

Что я мог иметь в виду под моим утверждением, что PDF является «своего рода непрерывной версией гистограммы»? Давайте возьмем небольшую полосу под кривой плотности вероятности вдоль значений в интервале [ x , x + δ x ] , поэтому ширина полосы составляет δ x , а высота кривой приблизительно равна f ( x ) . Мы можем нарисовать полосу той высоты, площадь которой f ( x )x[x,x+δx]δxf(x) представляет приблизительную вероятность лжи в этой полосе.f(x)δx

Как мы можем найти область под кривой между и x = b ? Мы могли бы разделить этот интервал на маленькие полоски и взять сумму площадей баров, f ( x )x=ax=b , что соответствует приблизительной вероятности нахождения в интервале [ a , b ] . Мы видим, что кривая и столбцы точно не совпадают, поэтому в нашем приближении есть ошибка. Делая δ x меньше и меньше для каждого бара, мы заполняем интервал более и более узкими барами, у которыхf ( x )f(x)δx[a,b]δx дает лучшую оценку площади.f(x)δx

Для того, чтобы рассчитать площадь точно, а не предполагая была постоянной по каждой полосе, мы оцениваем интеграл б в е ( х ) д х , и это соответствует истинной вероятности , лежащей в интервале [ , Ь ] , Интегрирование по всей кривой дает общую площадь (т. Е. Общую вероятность) единицу, по той же причине, что суммирование площадей всех столбцов гистограммы относительной частоты дает общую площадь (т. Е. Общую пропорцию) единицы. Интеграция сама по себе является своего рода непрерывной версией взятия суммы.f(x)abf(x)dx[a,b]

введите описание изображения здесь

R код для участков

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)
тарпон
источник
Вы прибили это с первыми двумя строками, но остальное так же хорошо.
PatrickT
2
@PatrickT Спасибо - опыт преподавания подсказывает, что иногда нужно попробовать несколько вещей, прежде чем пенни упадет, потому что разные учащиеся (или читатели) приходят с разными уровнями знаний. Первые две строки должны убедить любого читателя, который знает размерный анализ (например, изучал ли он физику или технику), но я надеюсь, что сюжеты уладят все остальное! По моему опыту, гистограммный подход хорошо работает для студентов, которые сталкивались с ними раньше; разрыв между «относительной плотностью частоты» и «плотностью вероятности» легче преодолеть, чем . f(x)=F(x)
Серебряная рыба
1
@Silverfish: Впервые я увидел, как кто-то использует термин «пенни» на английском языке!
Мердад
1
Первый график выглядит так, будто кто-то щелкает птицей :)
Аксакал
1
@Aksakal Ooof. Я этого не заметил. Нужно помнить, что не следует использовать этот пример в классе без каких-либо изменений. (В том же духе, когда я решаю задачу на доске, есть определенные числа, например, 69, которые я стараюсь избегать. Опыт труднодостижим.)
Silverfish
7

У вас уже есть два ответа, отличный от Silverfish , однако я чувствую, что здесь может быть полезна иллюстрация, поскольку вы спрашивали о геометрии и «представляли» себе эти функции.

Начнем с простого примера распределения Бернулли :

f(x)={pif x=1,1pif x=0.

введите описание изображения здесь

Поскольку значения являются дискретными, «кривой» нет, а только две точки, однако идея аналогична: если вы хотите узнать общую вероятность (площадь под кривой), вы должны суммировать вероятности обоих возможных результатов:

п+(1-п)знак равно1

п1-п

ИксИксе(Икс)Икс1Икс11Σ#{Икся}знак равноNΣ#{Икся}/Nзнак равно1N

enter image description here

ИксИкс, Таким образом, если бы были точки, вы не могли бы их видеть, независимо от того, сколько бы вы «увеличили», поскольку между любыми заданными точками всегда может быть бесконечное число меньших точек. Из-за этого здесь у нас фактически есть кривая - вы можете представить, что она состоит из бесконечного множества «точек». Вы можете спросить себя: как вычислить сумму бесконечного числа вероятностей ..? На графике ниже красная кривая - обычный PDF, а черные квадраты - гистограмма некоторых значений, взятых из распределения. Таким образом, график гистограммы упростил наше распределение до конечного числа «ящиков» с определенной ширинойи если вы суммируете высоты блоков, умноженные на их ширину, вы получите область под кривой - или область всех блоков. Здесь мы используем области, а не точки, так как каждая ячейка представляет собой сводку бесконечного числа «точек», которые были упакованы в коробку.

введите описание изображения здесь

е(Икс)-2.5--3знак равно0,5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

0,511

11и, разделив его, вы получите вероятности частей. Если линия не плоская, вероятность для каждой части описывается функциейе(Икс), Таким образом, единицы измерения на самом деле не имеют значения, поскольку существует бесконечное число возможных «точек», это вероятность на единицу, где единица всегда одинакова: доля от «общей» длины .

Этот подход упрощенно иллюстрирует немного более сложную проблему - получение интегралов . В непрерывном случае вы используете интегралы для расчета площади под кривой. Интеграл от площади кривой между точкамиa и б (-3 и 3 На нашем участке) есть:

aбе(Икс)dИкс

где е(Икс) высота и dИкс ширина, и вы могли бы думать о в качестве для непрерывных переменных. Чтобы узнать больше об интегралах и исчислении, вы можете проверить лекции Академии Хана .

Вы также спросили о «плоском» (равномерном) распределении :

введите описание изображения здесь

Сначала обратите внимание, что это недопустимое равномерное распределение, поскольку оно должно иметь такие параметры, чтобы -<a<б<, чтобы интегрировать в 1, Если вы думаете об этом, он является непрерывным и, поскольку он плоский, это своего рода коробка шириной от- to . If you wanted to calculate area of such box, you would be multiplying the height by width. Unfortunately, while the width is infinitely wide, for it to integrate to 1 the height would have to be some ε that is enormously small... So this is a complicated case and you could imagine it rather in abstract terms. Notice that, as Ilmari Karonen noticed in the comment, this is rather an abstract idea that is not really possible in practice (see the comment below). If using such distribution as a prior, it would be an improper prior.

Обратите внимание, что в непрерывном случае функция плотности вероятности дает оценки плотности, а не вероятности, поэтому высоты (или их сумма) могут превышать 1(см. здесь для получения дополнительной информации).

Тим
источник
1
Для плоского (то есть равномерного ) распределения на бесконечной линии «сложный» действительно означает «невозможный»: равномерное распределение на множестве бесконечной меры не является допустимым распределением вероятности именно потому, что его нельзя масштабировать для интегрирования в1, Это иногда полезно делать вид , что это один, но принимать это слишком далеко быстро приводит к парадоксам. (Например, пустьИкс и Y быть независимым и равномерно распределенным по (-,); какова вероятность того, что|Икс|<|Y|?)
Илмари Каронен
Вы правы, «сложный» слишком неформальный. Я сделаю исправления позже.
Тим
0

Следующая ключевая идея была упомянута в комментарии, но не в существующем ответе ...

Один из способов понять свойства PDF-файла состоит в том, чтобы учесть, что PDF-файл и CDF связаны интеграцией (исчислением) и что CDF имеет монотонный выход, представляющий значение вероятности в диапазоне от 0 до 1.

Безразмерный интегрирована общая площадь под кривой PDF не зависит от оси Х единиц.

Проще говоря...

Area = Width x Height

Если из-за изменения единиц измерения ось X становится больше в цифровом выражении, то ось Y должна уменьшаться на соответствующий линейный коэффициент.

nobar
источник