В чем причина того, что функция правдоподобия не является pdf (функцией плотности вероятности)?
likelihood
pdf
Джон Доу
источник
источник
Ответы:
Начнем с двух определений:
Функция плотности вероятности (PDF) является неотрицательной функцией , которая интегрируется с1 .
Вероятность определяется как общая плотность наблюдаемых данных в зависимости от параметра. Но, как указывает ссылка на Lehmann, сделанная @whuber в комментарии ниже, функция правдоподобия является функцией только параметра, а данные хранятся в виде фиксированной константы. Поэтому тот факт, что это плотность как функция данных, не имеет значения.
Следовательно, функция правдоподобия не является pdf, потому что ее интеграл по параметру не обязательно равен 1 (и может вообще не быть интегрируемым, как указано в другом комментарии @whuber).
Чтобы увидеть это, мы будем использовать простой пример. Предположим , у вас есть одно наблюдение, , с Б е р п о ¯u л л я ( & thetas ; ) распределения. Тогда функция правдоподобияx Bernoulli(θ)
Это факт , что . В частности, если х = 1 , то L ( θ ) = θ , так что ∫ 1 0 L ( θ ) d θ = ∫ 1 0 θ d θ = 1 / 2∫10L(θ)dθ=1/2 x=1 L(θ)=θ
и аналогичный расчет применяется, когда . Следовательно, L ( θ ) не может быть функцией плотности.x=0 L(θ)
Возможно, даже более важным, чем этот технический пример, показывающий, почему вероятность не является плотностью вероятности, является указание на то, что вероятность - это не вероятность того, что значение параметра правильное или что-то в этом роде, - это вероятность (плотность) данных учитывая значение параметра , что совершенно другое. Поэтому не следует ожидать, что функция правдоподобия будет вести себя как плотность вероятности.
источник
источник
Я не статистик, но я понимаю, что, хотя сама функция правдоподобия не является PDF по отношению к параметру (ам), она напрямую связана с этим PDF по правилу Байеса. Функция правдоподобия P (X | theta) и апостериорное распределение f (theta | X) тесно связаны; совсем не "совсем другая вещь".
источник
Давайте посмотрим на его оригинальную форму:
Например, я не знаю среднего значения и стандартной дисперсии гауссовского распределения и хочу получить их путем обучения с использованием большого количества выборок из этого распределения. Сначала я случайным образом инициализирую среднее и стандартную дисперсию (которая определяет распределение Гаусса), а затем беру одну выборку и вписываюсь в предполагаемое распределение, и я могу получить вероятность из предполагаемого распределения. Затем я продолжаю вставлять выборку и получаю много вероятностей, а затем умножаю эти вероятности и получаю оценку. Этот вид оценки является вероятностью. Вряд ли это может быть вероятность определенного PDF.
источник