Концептуально я понимаю значение фразы «общая площадь под PDF равна 1». Это должно означать, что шансы на результат в общем интервале возможностей составляют 100%.
Но я не могу понять это с «геометрической» точки зрения. Если, например, в PDF ось x представляет длину, общая площадь под кривой не станет больше, если x измеряется в мм, а не в км?
Я всегда стараюсь представить, как будет выглядеть область под кривой, если функция будет сплющена до прямой линии. Будет ли высота (положение на оси Y) этой линии одинаковой для любого PDF-файла или будет иметь значение, зависящее от интервала на оси X, для которого определена функция?
probability
pdf
integral
TheChymera
источник
источник
Ответы:
Функция плотности вероятности измеряется в процентах на единицу измерения вашей оси X. Допустим, в данной точкеx0 ваш PDF равен 1000. Это означает, что вероятность x0<x<x0+dx равна 1000dx гдеdx в метрах. Если вы измените единицы измерения на сантиметры, то вероятность не должна измениться за тот же интервал, но тот же интервал имеет на 100 сантиметров больше, чем метров, поэтому1000dx=PDF′(x′0)⋅100dx′ и, решая, получаемPDF′(x′0)=PDF(x0)100 . В 100 раз меньше единиц вероятности (процентов) на сантиметр, чем на метр.
источник
Это может помочь вам понять, что вертикальная ось измеряется как плотность вероятности . Таким образом, если горизонтальная ось измеряется в км, то вертикальная ось измеряется как плотность вероятности «на км». Предположим, мы нарисуем прямоугольный элемент на такой сетке, ширина которой составляет 5 км, а высота - 0,1 км / км (которую вы можете предпочесть записать как «км - 1 »). Площадь этого прямоугольника составляет 5 км х 0,1 км - 1 = 0,5. Подразделения отменяются, и у нас остается только половина вероятности.−1 −1
Если вы изменили горизонтальные единицы на «метры», вам придется изменить вертикальные единицы на «на метр». Прямоугольник теперь будет шириной 5000 метров и будет иметь плотность (высоту) 0,0001 на метр. Вы все еще остались с вероятностью одной половины. Вы можете быть обеспокоены тем, как странно эти два графика будут выглядеть на странице по сравнению друг с другом (не нужно ли быть намного шире и короче другого?), Но когда вы физически рисуете графики, вы можете использовать все, что угодно. масштабировать вам нравится. Посмотрите ниже, чтобы увидеть, как мало странностей нужно задействовать.
Возможно, вам будет полезно рассмотреть гистограммы, прежде чем переходить к кривым плотности вероятности. Во многом они аналогичны. Вертикальная ось гистограммы - это плотность частоты [на единицу ],x а области представляют частоты, опять же, потому что горизонтальные и вертикальные единицы сокращаются при умножении. Кривая PDF - это своего рода непрерывная версия гистограммы с общей частотой, равной единице.
Еще более близкой аналогией является гистограмма относительной частоты - мы говорим, что такая гистограмма была «нормализована», так что элементы площади теперь представляют пропорции вашего исходного набора данных, а не необработанные частоты, и общая площадь всех столбцов равна единице. Высоты теперь представляют собой относительные плотности частот [на единицу ]x . Если гистограмма относительной частоты имеет полосу, которая проходит вдоль x значения от 20 км до 25 км (таким образом, ширина полосы равна 5 км) и имеет относительную плотность частоты 0,1 на км, тогда эта полоса содержит 0,5 процента данных. Это в точности соответствует идее о том, что случайно выбранный элемент из вашего набора данных с вероятностью 50% лежит в этом баре. Предыдущий аргумент о влиянии изменений в единицах по-прежнему применяется: сравните пропорции данных, лежащих на полосе от 20 до 25 км, с данными на полосе от 20 000 до 25 000 метров для этих двух участков. Вы также можете арифметически подтвердить, что площади всех баров в обоих случаях равны единице.
Что я мог иметь в виду под моим утверждением, что PDF является «своего рода непрерывной версией гистограммы»? Давайте возьмем небольшую полосу под кривой плотности вероятности вдоль значений в интервале [ x , x + δ x ] , поэтому ширина полосы составляет δ x , а высота кривой приблизительно равна f ( x ) . Мы можем нарисовать полосу той высоты, площадь которой f ( x )x [x,x+δx] δx f(x) представляет приблизительную вероятность лжи в этой полосе.f(x)δx
Как мы можем найти область под кривой между и x = b ? Мы могли бы разделить этот интервал на маленькие полоски и взять сумму площадей баров, ∑ f ( x )x=a x=b , что соответствует приблизительной вероятности нахождения в интервале [ a , b ] . Мы видим, что кривая и столбцы точно не совпадают, поэтому в нашем приближении есть ошибка. Делая δ x меньше и меньше для каждого бара, мы заполняем интервал более и более узкими барами, у которых ∑ f ( x )∑f(x)δx [a,b] δx дает лучшую оценку площади.∑f(x)δx
Для того, чтобы рассчитать площадь точно, а не предполагая была постоянной по каждой полосе, мы оцениваем интеграл ∫ б в е ( х ) д х , и это соответствует истинной вероятности , лежащей в интервале [ , Ь ] , Интегрирование по всей кривой дает общую площадь (т. Е. Общую вероятность) единицу, по той же причине, что суммирование площадей всех столбцов гистограммы относительной частоты дает общую площадь (т. Е. Общую пропорцию) единицы. Интеграция сама по себе является своего рода непрерывной версией взятия суммы.f(x) ∫baf(x)dx [a,b]
R код для участков
источник
У вас уже есть два ответа, отличный от Silverfish , однако я чувствую, что здесь может быть полезна иллюстрация, поскольку вы спрашивали о геометрии и «представляли» себе эти функции.
Начнем с простого примера распределения Бернулли :
Поскольку значения являются дискретными, «кривой» нет, а только две точки, однако идея аналогична: если вы хотите узнать общую вероятность (площадь под кривой), вы должны суммировать вероятности обоих возможных результатов:
0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002
Этот подход упрощенно иллюстрирует немного более сложную проблему - получение интегралов . В непрерывном случае вы используете интегралы для расчета площади под кривой. Интеграл от площади кривой между точкамиa и б (- 3 и 3 На нашем участке) есть:
гдее( х ) высота и dИкс ширина, и вы могли бы думать о ∫ в качестве Σ для непрерывных переменных. Чтобы узнать больше об интегралах и исчислении, вы можете проверить лекции Академии Хана .
Вы также спросили о «плоском» (равномерном) распределении :
Сначала обратите внимание, что это недопустимое равномерное распределение, поскольку оно должно иметь такие параметры, чтобы- ∞ < a < b < ∞ , чтобы интегрировать в 1 , Если вы думаете об этом, он является непрерывным и, поскольку он плоский, это своего рода коробка шириной от- ∞ to ∞ . If you wanted to calculate area of such box, you would be multiplying the height by width. Unfortunately, while the width is infinitely wide, for it to integrate to 1 the height would have to be some ε that is enormously small... So this is a complicated case and you could imagine it rather in abstract terms. Notice that, as Ilmari Karonen noticed in the comment, this is rather an abstract idea that is not really possible in practice (see the comment below). If using such distribution as a prior, it would be an improper prior.
Обратите внимание, что в непрерывном случае функция плотности вероятности дает оценки плотности, а не вероятности, поэтому высоты (или их сумма) могут превышать1 (см. здесь для получения дополнительной информации).
источник
Следующая ключевая идея была упомянута в комментарии, но не в существующем ответе ...
Один из способов понять свойства PDF-файла состоит в том, чтобы учесть, что PDF-файл и CDF связаны интеграцией (исчислением) и что CDF имеет монотонный выход, представляющий значение вероятности в диапазоне от 0 до 1.
Безразмерный интегрирована общая площадь под кривой PDF не зависит от оси Х единиц.
Проще говоря...
Если из-за изменения единиц измерения ось X становится больше в цифровом выражении, то ось Y должна уменьшаться на соответствующий линейный коэффициент.
источник