Почему максимальная вероятность, а не ожидаемая вероятность?

22

Почему так часто получают оценки максимального правдоподобия параметров, но вы практически никогда не слышали об ожидаемых оценках параметров правдоподобия (т. Е. На основе ожидаемого значения, а не режима функции правдоподобия)? Это в первую очередь по историческим причинам или по более предметным техническим или теоретическим причинам?

Будут ли существенные преимущества и / или недостатки использования ожидаемых оценок вероятности, а не оценок максимального правдоподобия?

Есть некоторые области , в которых ожидаемые оценки вероятности будут обычно используются?

Джейк Уэстфолл
источник
9
Ожидаемое значение относительно какого распределения вероятности? ML обычно применяется в небайесовском анализе, где (а) данные приведены (и фиксированы) и (б) параметры рассматриваются как (неизвестные) константы: случайных величин вообще нет.
whuber

Ответы:

15

Предложенный метод (после нормализации вероятности для плотности) эквивалентен оценке параметров с использованием плоского априора для всех параметров в модели и использования среднего значения апостериорного распределения в качестве оценщика. Есть случаи, когда использование плоского априора может привести к неприятностям, потому что вы не получите правильного апостериорного распределения, поэтому я не знаю, как бы вы исправили эту ситуацию здесь.

Однако, оставаясь в частом контексте, метод не имеет особого смысла, так как вероятность не составляет плотности вероятности в большинстве контекстов, и ничего случайного не остается, поэтому ожидание не имеет особого смысла. Теперь мы можем просто формализовать это как операцию, которую мы применяем к вероятности после получения факта для получения оценки, но я не уверен, как будут выглядеть частые свойства этой оценки (в тех случаях, когда оценка действительно существует).

Преимущества:

  • Это может дать оценку в некоторых случаях, когда MLE фактически не существует.
  • Если вы не упрямый, он может перевести вас в байесовский режим (и это, вероятно, будет естественным способом сделать вывод при таком типе оценки). Хорошо, поэтому, в зависимости от ваших взглядов, это не может быть преимуществом, но это для меня.

Недостатки:

  • Этого тоже не гарантировано.
  • Если у нас нет выпуклого пространства параметров, оценка может быть недопустимым значением для параметра.
  • Процесс не инвариантен к повторной параметризации. Поскольку этот процесс эквивалентен предварительному определению ваших параметров, он имеет значение, каковы эти параметры (мы говорим об использовании в качестве параметра или мы используем σ 2 )σσ2
Dason
источник
7
+1 Одна огромная проблема, связанная с предположением о равномерном распределении параметров, заключается в том, что проблемы ОД часто переформулируются путем использования неизменности их решений для репараметризации: однако это изменило бы предварительное распределение по параметрам. Таким образом, принятие «ожидания», как будто параметры имеют равномерное распределение, является произвольным артефактом и может привести к ошибочным и бессмысленным результатам.
whuber
1
Хорошая точка зрения! Я собирался упомянуть об этом, но забыл поднять это, печатая остальное.
Dason
Для записи, максимальная вероятность также не является инвариантной для репараметризации.
Нил Г
1
@NeilG Да, это так? Возможно, мы имеем в виду разные идеи. Что вы имеете в виду, когда говорите это?
Дейсон
п[0,1]αзнак равноβзнак равно2о[0,)αзнак равноβзнак равно2121314
12

Одна из причин заключается в том, что оценка максимального правдоподобия проще: вы устанавливаете производную вероятности по параметрам на ноль и решаете для параметров. Принятие ожидания означает интегрирование вероятности умножения на каждый параметр.

{Икся}μзнак равноЕ(Икс)χзнак равноЕ(Икс2)

В некоторых случаях параметр максимального правдоподобия совпадает с параметром ожидаемого правдоподобия. Например, ожидаемое среднее значение вероятности для нормального распределения, приведенного выше, совпадает с максимальным вероятностью, поскольку априорное значение среднего является нормальным, а мода и среднее нормального распределения совпадают. Конечно, это не будет верно для другого параметра (однако вы его параметризуете).

Я думаю, что самая важная причина, вероятно, почему вы хотите ожидания параметров? Обычно вы изучаете модель, а значения параметров - это все, что вам нужно. Если вы собираетесь вернуть единственное значение, разве максимальная вероятность не лучшая, которую вы можете вернуть?

Нил Г
источник
6
Относительно вашей последней строчки: может быть, а может и нет. Это зависит от вашей функции потери. Я просто поиграл с идеей Джейка, и похоже, что в случае с X ~ Unif (0, theta) max (X) * (n-1) / (n-2), что дает метод Джейка, лучше MSE чем max (X), что является MLE (по крайней мере, моделирование подразумевает это, когда n> = 5). Очевидно, что пример Unif (0, theta) не является типичным, но он показывает, что существуют и другие возможные методы получения оценок.
Дейсон
4
@Dason один стандарт (и мощный) частотная техника для нахождения хорошего ( то есть , допустимые) оценок заключается в вычислении Байеса оценок для различных априорных. (См., Например , книгу Лемана об оценке баллов.) Вы только что заново открыли одну такую ​​оценку.
whuber
Спасибо за ваш ответ, Нил! Вы говорите, что получение оценок параметров посредством дифференцирования легче по сравнению с интеграцией, и я, конечно, могу видеть, как это будет справедливо для простых задач (например, на уровне бумаги или бумаги или не слишком далеко за пределами). Но для гораздо более сложных задач, когда нам приходится полагаться на численные методы, не может ли быть проще использовать интеграцию? На практике поиск MLE может составить довольно сложную задачу оптимизации. Разве численное приближение интеграла не может быть проще в вычислительном отношении? Или это вряд ли будет правдой в большинстве случаев?
Джейк Уэстфолл,
@JakeWestfall: Как вы собираетесь рассчитывать на пространство параметров, используя численные методы? В сложном модельном пространстве с огромным пространством параметров вы не можете интегрировать в целом оценку вероятности каждой модели (установка параметров). Как правило, вы собираетесь запускать EM, для которой оценка параметра происходит в M-шаге, так что каждый параметр, как вы говорите, является одной из "простых задач", и для которых параметры максимального правдоподобия являются прямыми ожиданиями достаточной статистики.
Нил Г
@NeilG Хорошо, Дейсон отмечает, что метод, который я обсуждаю, (после нормализации) эквивалентен байесовской оценке с плоским предшествующим значением, а затем использует среднее значение в качестве оценки. Итак, в ответ на вопрос «Как вы собираетесь рассчитывать на пространство параметров, используя численные методы?» Я думаю, я думал, что мы могли бы использовать один из этих методов: bayesian-inference.com/numericapproximation Есть какие-нибудь мысли по этому поводу ?
Джейк Уэстфолл
2

Этот подход существует и называется Оценщик минимального контраста. Пример связанной бумаги (и другие ссылки смотрите изнутри) https://arxiv.org/abs/0901.0655

Данила Дорошин
источник