Когда работает максимальная вероятность, а когда нет?

16

Меня смущает метод максимального правдоподобия по сравнению, например, с вычислением среднего арифметического.

Когда и почему максимальное правдоподобие дает «лучшие» оценки, чем, например, среднее арифметическое? Как это проверяется?

mavavilj
источник
4
+1 Это хороший вопрос для любой статистической процедуры.
whuber
3
Я не думаю, что этот вопрос слишком неясен. Конечно, ОП неясна, но именно поэтому они спрашивают. Вопросы, касающиеся природы MLE и арифметических средств, должны быть прояснены с хорошим ответом.
gung - Восстановить Монику
3
Что вы подразумеваете под «лучше»? И почему среднее арифметическое должно быть хорошей оценкой произвольного параметра?
Сиань
4
На этот вопрос нельзя ответить, не задав сначала определения «лучше», т. Е. Функции потерь или другого критерия, который позволяет сравнивать оценки. Например, MLE является эффективным, что означает, что нет оценки с меньшей асимптотической дисперсией (при некоторых условиях регулярности). И, например, MLE может быть недопустимым, как демонстрирует эффект Стейна , то есть существуют оценки с меньшим квадратичным риском для всех значений параметра при некоторых ограничениях на распределение выборки и размерность параметра.
Сиань
2
@ Сиань Это звучит как основа ответа.
whuber

Ответы:

10

В то время как среднее арифметическое может звучать как «естественная» оценка, можно спросить, почему оно должно быть предпочтительнее MLE! Единственное надежное свойство, связанное со средним арифметическим, состоит в том, что оно является объективной оценкой E [x¯ когда это ожидание определено. (Думайте о распределении Коши как о контрпримере.) Более поздний действительно обладает широким спектром свойств в условиях регулярности функции правдоподобия. Чтобы позаимствовать состраницы википедии, MLEE[X]

  1. последовательный
  2. асимптотически нормальный
  3. эффективный в том, что он достигает минимальной асимптотической дисперсии
  4. инвариант при биективных преобразованиях
  5. в наборе параметров даже для ограниченных наборов параметров

По сравнению со средним арифметическим, большинство из этих свойств также удовлетворяются для достаточно регулярных распределений. За исключением 4 и 5. В случае экспоненциальных семейств MLE и среднее арифметическое одинаковы для оценки параметра в параметризации среднего (но не для других параметризаций). И MLE существует для выборки из распределения Коши.

Однако при обращении к свойствам оптимальности конечной выборки, таким как минимаксность или допустимость, может случиться, что MLE не является ни минимаксным, ни допустимым. Например, эффект Стейна показывает, что существуют оценки с меньшим квадратичным риском для всех значений параметра при некоторых ограничениях на распределение выборки и размерность параметра. Это тот случай, когда и p 3 .xNp(θ,Ip)p3

Сиань
источник
Просто чтобы уточнить о mle - все 5 перечисленных свойств находятся в контексте предполагаемой модели для населения.
вероятностная
@CagdasOzgenc: да, доминирование асимптотически ничтожно, но верно для всех ! Однако диапазон минимаксных оценок Джеймса-Стейна уменьшается с n, поскольку постоянная сжатия составляет от 0 до 2 ( p - 2 ) σ 2 / n, где p - размерность, а σ 2 - дисперсия одного компонента наблюдения. Впрочем, я никогда не слышал об асимптотической минимаксности. nsn02(p2)σ2/npσ2
Сиань
2

Давайте интерпретировать «вычисление среднего арифметического» как оценку с использованием метода моментов (MoM). Я полагаю, что это соответствует первоначальному вопросу, поскольку метод заменяет средние значения выборки на теоретические. Это также решает проблему @ Сиань по поводу произвольного параметра (из произвольной модели).

Если вы все еще со мной, то я думаю, что отличное место для этого - Примеры, где метод моментов может превзойти максимальную вероятность в маленьких выборках?Текст вопроса указывает на то, что «Оценки максимального правдоподобия (MLE) являются асимптотически эффективными; мы видим практический результат в том, что они часто лучше, чем оценки методом моментов (MoM) (когда они различаются)», и ищет конкретные случаи, когда оценки MoM достичь меньшей среднеквадратичной ошибки, чем ее аналог MLE. Приведено несколько примеров в контексте линейной регрессии, двухпараметрического обратного распределения Гаусса и асимметричного экспоненциального распределения мощности.

Эта идея «асимптотической эффективности» означает, что оценки максимального правдоподобия, вероятно, близки к использованию данных в их самом полном потенциале (для оценки рассматриваемого параметра), гарантии, которую вы не получите с методом моментов в целом. Хотя максимальная вероятность не всегда «лучше», чем работа со средними, это свойство эффективности (если только в пределе) делает его методом перехода к наиболее частым. Конечно, противоположность может утверждать, что с увеличением размера наборов данных, если вы указываете на правильную цель с помощью функции средних значений, соглашайтесь с этим.

Бен Огорек
источник
1

Есть несколько известных примеров, когда максимальная вероятность (ML) не дает наилучшего решения. См. Статью Люсьена Ле Кэма 1990 года: «Максимальное правдоподобие: введение» [1] , из его приглашенных лекций в Univ. Мэриленд.

Пример, который мне нравится больше всего, потому что это так просто, это:

XjYjj=1,...,nXjN(μj,σ2)YjN(μj,σ2)jXjYjjσ2

Я не испорчу веселье, дав вам ответ, но (неудивительно) есть два способа решить эту проблему с помощью ML, и они дают разные решения. Один - это «среднее арифметическое» квадратов невязок (как и следовало ожидать), а другой - половина среднего арифметического. Вы можете найти ответ здесь на моей странице Github.

idnavid
источник