Как я должен интерпретировать высоту плотности участков:
Например, на приведенном выше графике пик составляет около 0,07 при x = 18. Могу ли я сделать вывод, что около 7% значений составляют около 18? Могу ли я быть более конкретным, чем это? Существует также второй пик при х = 30 с высотой 0,02. Значит ли это, что около 2% значений составляют около 30?
Изменить: Вопрос о том, может ли значение распределения вероятности, превышающее 1, быть в порядке?обсуждается значение вероятности> 1, которое здесь вообще не является проблемой. Это также обсуждает это в отношении наивного байесовского классификатора, что также не имеет значения здесь. Я хочу иметь на простом языке числовые выводы, которые мы можем сделать из таких кривых плотности. Роль области под кривой обсуждается, но мой вопрос, в частности, какой вывод мы можем сделать относительно конкретной комбинации x и y, которая существует на кривой. Например, как мы можем связать x = 30 и y = 0,02 на этом графике. Какое утверждение мы можем написать относительно отношения между 30 и 0,02 здесь. Поскольку плотности даны для одной единицы измерения, можем ли мы сказать, что 2% значений имеют место между 29,5 и 30,5? Если это так, как мы можем интерпретировать, если значения варьируются от 0 до 1, как на следующем графике:
Если 100% значений находятся между 0 и 1, почему любая кривая находится за пределами 0 и 1?
Здесь есть плоская часть при x = 0,1 - x = 0,2, где y равно 0,8. Он образует прямоугольник. Как мы можем узнать, какая доля значений встречается между x = 0.1 и x = 0.2
(PS: Если вы находите этот вопрос интересным / важным, пожалуйста, проголосуйте за него;)
Ответы:
Вы должны быть осторожны с вашей формулировкой здесь. Предполагая, что x является непрерывной переменной, вероятность любого отдельного значения точно равна нулю. Говорить, как и вы, о вероятности значения, лежащего вокруг некоторой точки, хорошо, хотя вы можете быть немного более точным. Ваше второе утверждение, в котором вы указали интервал и вероятность, - это то, что я бы искал.
По сути, интеграл от функции плотности по x скажет вам о самой вероятности (именно поэтому она называется плотностью ). Очевидно, что интервал, через который вы будете интегрироваться, может быть сколь угодно мал, поэтому вы можете приблизиться к точке в произвольной степени. Тем не менее, когда функция плотности изменяется очень медленно в течение этого интервала, вы можете аппроксимировать интеграл с помощью некоторого численного метода, такого как правило трапеции .
Подводя итог: высота функции плотности как раз и есть ее высота. Все, что вы, возможно, захотите сделать вывод о вероятности, должно включать в себя интеграцию той или иной формы.
источник