Это какая-то странная мысль, которая у меня возникла при просмотре какой-то старой статистики, и по какой-то причине я не могу придумать ответ.
Непрерывный PDF говорит нам о плотности наблюдаемых значений в любом заданном диапазоне. А именно, например, если , то вероятность того, что реализация попадает между и , просто где - это плотность стандартная нормальная.
Когда мы думаем о выполнении MLE-оценки параметра, скажем, , мы записываем общую плотность, скажем, N , случайных величин X_1 .. X_N и дифференцируем логарифмическое правдоподобие относительно \ mu , устанавливаем равным 0 и решаем для \ му . Часто дается интерпретация «даны данные, какой параметр делает эту функцию плотности наиболее вероятной».
Часть, которая беспокоит меня, такова: у нас есть плотность rv, и вероятность того, что мы получим конкретную реализацию, скажем, нашу выборку, равна точно 0. Почему даже имеет смысл максимизировать общую плотность, учитывая наши данные ( так как опять вероятность наблюдения нашей фактической выборки точно равна 0)?
Единственная рационализация, которую я мог бы придумать, заключается в том, что мы хотим, чтобы PDF был максимально возможным вокруг нашей наблюдаемой выборки, чтобы интеграл в области (и, следовательно, вероятность наблюдения материала в этой области) был максимальным.
Ответы:
Вероятность любой выборки,Pθ(X=x) , равна нулю, и все же одна выборка реализуется путем извлечения из распределения вероятностей. Следовательно, вероятность - это неправильный инструмент для оценки выборки и вероятности ее возникновения. Статистическая вероятность, как определено Фишером (1912), основана на предельном аргументе вероятности наблюдения выборки x в интервале длины δ когда δ стремится к нулю (цитата из Aldrich, 1997) :
при перенормировке этой вероятности наδ . Термин «функция правдоподобия» введен только у Фишера (1921 г.), а термин «максимальный уровень правдоподобия» у Фишера (1922 г.).
Несмотря на то, что он шел под наименованием «наиболее вероятное значение» и использовал принцип обратной вероятности (байесовский вывод) с плоским априором, Карл Фридрих Гаусс уже получил в 1809 году оценку максимального правдоподобия для параметра дисперсии нормального распределения. Hald (1999) упоминает несколько других случаев оценки максимального правдоподобия до статьи Фишера 1912 года, в которой был установлен общий принцип.
Позднее обоснование подхода максимального правдоподобия заключается в том, что, поскольку перенормированный логарифмический правдоподобие выборки(x1,…,xn)
1n∑i=1nlogfθ(xi) сходится к [Закон больших чисел]E[logfθ(X)]=∫logfθ(x)f0(x)dx (гдеf0 обозначает истинную плотность образца iid), максимизация вероятности [как функции отθ ] асимптотически эквивалентна минимизации [вθ ] расходимости Кульбака-Лейблера
∫logf0(x)fθ(x)f0(x)dx=∫logf0(x)f0(x)dxconstantin θ−∫logfθ(x)f0(x)dx
между истинным распределением выборки iid и семейством распределений, представленных символами fθ .
источник