Почему оценка максимального правдоподобия считается частой техникой

19

Статистика для меня - это синоним попытки принять решение, подходящее для всех возможных выборок. Т.е., правило принятия решений для частых всегда должно пытаться свести к минимуму частый риск, который зависит от функции потерь и истинного состояния природы :L θ 0δLθ0

Rfreq=Eθ0(L(θ0,δ(Y))

Как оценка максимального правдоподобия связана с частым риском? Учитывая, что это наиболее часто используемая техника оценки баллов, используемая частыми лицами, должна быть некоторая связь. Насколько я знаю, оценка максимального правдоподобия старше, чем концепция риска для частых, но все же должна быть какая-то связь, почему бы еще так много людей заявить, что это метод для частых случаев?

Самое близкое соединение, которое я нашел, состоит в том, что

«Для параметрических моделей, которые удовлетворяют условиям слабой регулярности, оценка максимального правдоподобия приблизительно минимальна», Вассерманн 2006, с. 201 "

Принятый ответ либо связывает оценку точки максимального правдоподобия с частым риском, либо предоставляет альтернативное формальное определение логического вывода, которое показывает, что MLE является методом логического вывода.

Джулиан Карлс
источник
6
ML вообще не обращает внимания на риск! Это, на самом деле, является частью частой теоретико-критической критики ML. Я подозреваю, что на этот вопрос может быть трудно ответить, потому что он неявно использует «Frequentist» в двух несовместимых смыслах - один является теоретико-решающим, ссылаясь на функцию потерь, а другой косвенно ссылается на то, что не предполагалось предварительное распределение.
whuber
@whuber ML обращает внимание на риск. Фактически это минимизация при логарифмических потерях при неправильной униформе.
Кагдас Озгенц
4
@Cagdas Я полагаю, что это обычно не риск для лица, принимающего решение: он просто демонстрирует ML, как если бы он сводил к минимуму риск, если логарифмическая потеря была риском, имевшим для них значение. Между прочим, обращение к «неподобающему униформу приора» явно не частое!
whuber
1
@whuber Байесовские процедуры оценки также используют накопленную потерю журнала. Только после этого риск принятия решения применяется. Если мы говорим об оптимизации риска для лица, принимающего решения напрямую (не через ступеньку потери журнала), то в этом отношении более популярны частые процедуры, то есть OLS.
Кагдас Озгенц

Ответы:

16

Вы применяете относительно узкое определение частоты и MLE - если мы немного более щедры и определяем

  • Частота: цель согласованности, (асимптотической) оптимальности, непредвзятости и контролируемой частоты ошибок при повторной выборке, независимо от истинных параметров

  • MLE = точечная оценка + доверительные интервалы (ДИ)

тогда кажется довольно ясным, что MLE удовлетворяет всем идеалам частых людей. В частности, CI в MLE, как p-значения, контролируют частоту ошибок при многократной выборке и не дают 95% -ную область вероятности для истинного значения параметра, как думают многие люди - следовательно, они насквозь и часто используются.

Не все эти идеи уже присутствовали в основополагающей статье Фишера 1922 года «О математических основах теоретической статистики» , но идея оптимальности и беспристрастности есть, и Нейман последний добавил идею построения КИ с фиксированной частотой ошибок. Эфрон, 2013 год, «250-летний аргумент: вера, поведение и самозагрузка» , подводит итог своей очень читаемой истории дебатов Байеса и частых:

В начале 1900-х годов популярность побочных эффектов действительно началась. Рональд Фишер разработал теорию оптимальной оценки максимального правдоподобия, продемонстрировав наилучшее возможное поведение для оценки, а Ежи Нейман сделал то же самое для доверительных интервалов и тестов. Процедуры Фишера и Неймана почти идеально соответствовали научным потребностям и вычислительным пределам науки двадцатого века, бросая байесианство в теневое существование.

Относительно вашего более узкого определения - я, мягко говоря, не согласен с вашей предпосылкой, что минимизация риска частых случаев (FR) является основным критерием, чтобы решить, следует ли метод философии частот. Я бы сказал, что тот факт, что минимизация FR является желательным свойством, следует из философии часто, а не предшествует ей. Следовательно, правило принятия решения / оценка не должны минимизировать FR, чтобы быть частым, и минимизация FR также не обязательно говорит о том, что метод является частым, но сомневающийся в частом предпочтении предпочтет минимизацию FR.

Если мы посмотрим на MLE конкретно: Фишер показал, что MLE асимптотически оптимален (в целом эквивалентен минимизации FR), и это, безусловно, было одной из причин продвижения MLE. Тем не менее, он знал, что оптимальность не имеет места для конечного размера выборки. Тем не менее, он был доволен этой оценкой из-за других желательных свойств, таких как согласованность, асимптотическая нормальность, инвариантность при преобразованиях параметров, и давайте не будем забывать: простота вычисления. В частности, инвариантность особенно подчеркивается в статье 1922 года - из моего прочтения я бы сказал, что поддержание инвариантности при преобразовании параметров и способность избавляться от априорных значений в целом были одной из его основных мотивов при выборе MLE. Если вы хотите лучше понять его рассуждения, я действительно рекомендую статью 1922 года:

Флориан Хартиг
источник
2
Могу ли я резюмировать ваш ответ, поскольку оценка точки максимального правдоподобия чаще всего используется в сочетании с КИ или в качестве части теста на гипотезу (например, критерий отношения правдоподобия), следовательно, это метод частых исследований? Если это так, я думаю, что это правильный ответ, но не тот, на который я надеялся. Я стремился к формальному аргументу, почему оценку максимального правдоподобия можно считать методом оценки баллистических точек. Если это требует другого формального определения частых выводов, это тоже хорошо.
Джулиан Карлс
1
Я обычно думаю о MLE как о структуре, которая включает в себя точечные оценки Фишера вместе с КИ Неймана - так учат в классе, и из-за приведенных выше аргументов я бы сказал, что это часто до костей. Интересно, какой смысл обсуждать, является ли MLE одним лишь оценщиком частоты, без контекста того, как и почему он используется. Если вам нужны причины Фишера, я действительно рекомендую статью 1922 года - я бы сказал, что причины, которые он утверждает, являются частыми, хотя тогда этого слова не существовало. Я расширил свой комментарий по этому поводу.
Флориан Хартиг
1

В основном по двум причинам:

  • Максимальная вероятность - это точечная оценка параметров модели. Нам, байесовцам, нравятся апостериорные распределения.
  • Максимальная вероятность не предполагает предварительного распределения , нам, байесовцам, нужны наши приоры, это может быть информативно или неинформативно, но оно должно существовать
Ури Горен
источник
6
+1 Я просто хочу отметить, что вы неявно приравниваете «частых» к «небайесовским» в этом ответе. Язык «мы, байесианцы» также предполагает, что «байесовец» относится к какой-то личной характеристике или принадлежности к племени - почти как если бы вы были эскимосом - а не к набору приемов и интерпретаций.
whuber
4
С другой стороны, MLE может быть легко получен как байесовский метод. Это просто оценка MAP для любой статистической модели, использующей единый предварительный расчет.
Джулиан Карлс
3
MAPтакже является точечной оценкой, которую осуждают «Истинные байесовцы»
Ури Горен