Оценка максимального правдоподобия - почему она используется, несмотря на то, что во многих случаях она является предвзятой

25

Оценка максимального правдоподобия часто приводит к смещенным оценкам (например, ее оценка для выборочной дисперсии смещена для распределения Гаусса).

Что же делает его таким популярным? Почему именно так много? Кроме того, что именно делает его лучше, чем альтернативный подход - метод моментов?

Кроме того, я заметил, что для Гаусса простое масштабирование оценки MLE делает его беспристрастным. Почему это масштабирование не является стандартной процедурой? Я имею в виду - почему после вычисления MLE не принято находить необходимое масштабирование, чтобы сделать оценку объективной? Стандартной практикой, по-видимому, является простое вычисление оценок MLE, за исключением, конечно, хорошо известного гауссовского случая, когда коэффициент масштабирования хорошо известен.

Minaj
источник
11
Есть много, много альтернатив ML, не только метод моментов, который, кстати, также имеет тенденцию давать смещенные оценки. Вместо этого вы можете спросить: «Почему кто-то хочет использовать объективную оценку?» Хороший способ начать исследование этой проблемы - поиск компромисса между отклонениями .
whuber
7
Как указал Уубер, нет никакого внутреннего превосходства в том, чтобы быть беспристрастным.
Сиань
4
Я думаю, что @whuber означает "почему кто-то хочет использовать необъективную оценку?" Не нужно много работать, чтобы убедить кого-то, что объективная оценка может быть разумной.
Клифф AB
5
См. En.wikipedia.org/wiki/… для примера, где единственная объективная оценка, безусловно, не та, которую вы хотели бы использовать.
Scortchi - Восстановить Монику
4
@Cliff Я намеревался задать вопрос в более провокационной, потенциально более загадочной форме. За этим скрывается идея, что существует множество способов оценки качества оценки, и многие из них не имеют ничего общего с предвзятостью. С этой точки зрения наиболее естественно спросить, почему кто-то предложил бы объективную оценку. Посмотрите ответ glen_b для получения дополнительной информации с этой точки зрения.
uuber

Ответы:

18

Объективность не обязательно особенно важна сама по себе.

Помимо очень ограниченного набора обстоятельств, наиболее полезные оценки являются предвзятыми, однако они получены.

Если две оценки имеют одинаковую дисперсию, можно легко выдвинуть аргумент в пользу предпочтения непредвзятого, а не предвзятого, но это необычная ситуация (то есть, вы можете разумно предпочесть непредвзятость, при прочих равных условиях - но эти противные при прочих равных условиях почти никогда не парит )

Более типично, если вы хотите непредвзятости, вы добавите некоторую дисперсию, чтобы получить ее, и тогда возникнет вопрос: зачем вам это делать ?

Смещение - это то, насколько ожидаемое значение моей оценки будет в среднем слишком высоким (с отрицательным смещением, указывающим на слишком низкое значение).

Когда я рассматриваю небольшую оценочную выборку, меня это не волнует. Меня обычно больше интересует, насколько ошибочной будет моя оценка в этом случае - мое типичное расстояние справа ... что-то вроде среднеквадратичной ошибки или средней абсолютной ошибки будет иметь больше смысла.

Так что, если вам нравится низкая дисперсия и низкое смещение, имеет смысл попросить сказать, например, оценку минимальной среднеквадратичной ошибки ; это очень редко непредвзято.

Предвзятость и непредвзятость - это полезное понятие, о котором нужно знать, но это не особенно полезное свойство для поиска, если только вы не сравниваете оценки с одной и той же дисперсией.

Оценки ML имеют тенденцию быть низкой дисперсией; они обычно не являются минимальными MSE, но они часто имеют более низкую MSE, чем дает изменение их, чтобы они были беспристрастными (когда вы можете сделать это вообще).

В качестве примера рассмотрит оценку дисперсии при отборе проб из нормального распределения σ 2 МСКО = S 2 (действительно, MMSE для дисперсии всегда имеет больший знаменатель, чемn-1).σ^MMSE2знак равноS2N+1,σ^MLE2знак равноS2N,σ^Unb2знак равноS2N-1N-1

Glen_b - Восстановить Монику
источник
1
+1. Есть ли какая-то интуиция для (или, возможно, какая-то теория) позади вашего второго до последнего абзаца? Почему оценки МЛ, как правило, имеют низкую дисперсию? Почему они часто имеют более низкий MSE, чем объективный оценщик? Кроме того, я поражен, увидев выражение для оценки дисперсии MMSE; как-то я никогда не сталкивался с этим раньше. Почему это так редко используется? И имеет ли это какое-либо отношение к усадке? Кажется, что он «сжался» от непредвзятого к нулю, но я смущен этим, поскольку я привык думать об усадке только в многомерном контексте (в духе Джеймса-Стейна).
говорит амеба: восстанови монику
1
@amoeba MLE, как правило, являются функциями достаточной статистики и, по крайней мере, асимптотически минимальной дисперсии, несмещенной, поэтому вы ожидаете, что они будут малой дисперсией в больших выборках, обычно достигая CRLB в пределе; это часто отражается в небольших выборках.MMSE оценки являются в основном сократились к нулю , потому что уменьшает дисперсию (и , следовательно , небольшое количество смещения к 0 , введенному небольшой усадке, как правило , уменьшает MSE).
Glen_b
σ^MMSE2=S2n+1
Кроме того, подразумевает ли это, что ML-дисперсионный оценщик не является оценщиком минимальной дисперсии? В противном случае минимальная оценка MSE была бы некоторой средневзвешенной (с положительными весами) MLE и несмещенной оценки, но теперь она находится вне этого диапазона. Я мог бы задать это как отдельный вопрос, если вы думаете, что это имеет смысл.
Ричард Харди
1
Нашел целый вывод в статье в Википедии о MSE , думаю, это все объясняет.
Ричард Харди
16

MLE дает наиболее вероятное значение параметров модели, учитывая модель и имеющиеся данные, что является довольно привлекательной концепцией. Почему вы выбираете значения параметров, которые делают наблюдаемые данные менее вероятными, если вы можете выбрать значения, которые делают наблюдаемые данные наиболее вероятными среди любого набора значений? Хотели бы вы пожертвовать этой функцией ради непредвзятости? Я не говорю, что ответ всегда ясен, но мотивация для MLE довольно сильна и интуитивна.

Кроме того, MLE может быть более широко применимым, чем метод моментов, насколько я знаю. MLE кажется более естественным в случаях скрытых переменных; например, модель скользящего среднего (MA) или модель обобщенной авторегрессионной условной гетероскедастичности (GARCH) могут быть непосредственно оценены с помощью MLE (я имею в виду, что достаточно указать функцию вероятности и передать ее в процедуру оптимизации), но не методом моментов (хотя могут существовать косвенные решения, использующие метод моментов).

Ричард Харди
источник
4
+1. Конечно, существует множество случаев, когда вам не нужна наиболее вероятная оценка, например, модели гауссовой смеси (то есть неограниченная вероятность). В общем, отличный ответ, чтобы помочь интуиции MLE.
Клифф AB
3
(+1) Но я думаю, что вам нужно добавить определение «наиболее вероятного» значения параметра как того, для которого данные наиболее вероятны, чтобы быть достаточно ясными. Другие интуитивно желательные свойства оценщика, не связанные с его долгосрочным поведением при многократной выборке, могут включать в себя его не зависимо от того, как вы параметризовали модель, и его не дает невозможных оценок истинного значения параметра.
Scortchi - Восстановить Монику
6
Думаю, все еще существует риск того, что «наиболее вероятный» будет считаться «наиболее вероятным».
Scortchi - Восстановить Монику
2
@RichardHardy: они совсем не похожи. Скорее всего, солнце погасло. Скорее всего, это не так.
user2357112 поддерживает Monica
2
@dsaxton: Статистики дифференцируют вероятность значения параметра с учетом данных от вероятности получения данных с параметром в течение почти столетия - см. Fisher (1921) «О« вероятной ошибке корреляции », Metron , 1 , стр. 3-32 & Pawitan (2013), по всей вероятности: статистическое моделирование и умозаключение с использованием правдоподобия - так что, хотя термины являются синонимами в обычном использовании, кажется, что сейчас немного поздно возражать.
Scortchi - Восстановить Монику
12

На самом деле, масштабирование оценок максимального правдоподобия для получения несмещенных оценок является стандартной процедурой во многих задачах оценки. Причина этого заключается в том, что mle является функцией достаточной статистики, и поэтому по теореме Рао-Блэкуэлла, если вы можете найти несмещенную оценку, основанную на достаточной статистике, тогда у вас есть несмещенный оценщик с минимальной дисперсией.

Я знаю, что ваш вопрос носит более общий характер, но я хочу подчеркнуть, что ключевые понятия тесно связаны с вероятностью и оценками, основанными на нем. Эти оценки не могут быть несмещенными в конечных выборках, но они асимптотически и, кроме того, они асимптотически эффективны, т.е. они достигают границы дисперсии Крамера-Рао для несмещенных оценок, что не всегда может иметь место для оценок MOM.

JohnK
источник
11

Чтобы ответить на ваш вопрос о том, почему MLE так популярен, учтите, что, хотя он может быть предвзятым, он соответствует стандартным условиям. Кроме того, он асимптотически эффективен, поэтому, по крайней мере, для больших образцов MLE, вероятно, будет так же лучше или лучше, чем любой другой оценщик, который вы можете приготовить. Наконец, MLE находится по простому рецепту; взять функцию вероятности и максимизировать ее. В некоторых случаях этому рецепту может быть трудно следовать, но для большинства проблем это не так. Кроме того, как только вы получите эту оценку, мы можем вывести асимптотические стандартные ошибки сразу, используя информацию Фишера. Без использования информации Фишера часто очень трудно определить границы ошибок.

Вот почему оценка MLE очень часто используется для оценки (если вы не байесовский); это просто реализовать и, вероятно, будет так же хорошо, если не лучше, чем что-либо еще, вам нужно сделать больше работы, чтобы приготовить.

Клифф AB
источник
1
Не могли бы вы рассказать о том, как это соотносится с методом моментов, поскольку это кажется важной частью ОП?
Антони Пареллада
1
как указывает Уубер, оценки MOM также являются предвзятыми, поэтому нет преимущества в «непредвзятости» для оценок MOM. Кроме того, когда оценки MOM и MLE не совпадают, MLE имеет тенденцию к снижению MSE. Но этот ответ на самом деле о том, почему MLE, как правило, по умолчанию, а не прямое сравнение с другими методами.
Клифф AB
2
@AntoniParellada Существует интересная тема сравнения MLE и MoM, stats.stackexchange.com/q/80380/28746
Алекос Пападопулос,
3

Я бы добавил, что иногда (часто) мы используем оценку MLE, потому что это то, что мы получили, даже если в идеальном мире это не было бы тем, что мы хотим. (Я часто думаю о статистике как об инженерном, где мы используем то, что получили, а не то, что хотим.) Во многих случаях легко определить и решить для MLE, а затем получить значение с помощью итеративного подхода. Принимая во внимание, что для данного параметра в данной ситуации может быть лучшая оценка (для некоторого значения «лучше»), но обнаружение этого может потребовать быть очень умным; и когда вы закончите быть умным, у вас останется только лучшая оценка для этой конкретной проблемы.

eac2222
источник
1
Из любопытства, что является примером того, что (в идеальном мире) вы хотели бы?
Glen_b
2
@Glen_b: не знаю. Беспристрастная, самая низкая дисперсия, легко вычисляемая в закрытом виде? Когда вы впервые изучаете оценки регрессии методом наименьших квадратов, жизнь кажется проще, чем кажется.
eac2222