Оценка максимального правдоподобия часто приводит к смещенным оценкам (например, ее оценка для выборочной дисперсии смещена для распределения Гаусса).
Что же делает его таким популярным? Почему именно так много? Кроме того, что именно делает его лучше, чем альтернативный подход - метод моментов?
Кроме того, я заметил, что для Гаусса простое масштабирование оценки MLE делает его беспристрастным. Почему это масштабирование не является стандартной процедурой? Я имею в виду - почему после вычисления MLE не принято находить необходимое масштабирование, чтобы сделать оценку объективной? Стандартной практикой, по-видимому, является простое вычисление оценок MLE, за исключением, конечно, хорошо известного гауссовского случая, когда коэффициент масштабирования хорошо известен.
Ответы:
Объективность не обязательно особенно важна сама по себе.
Помимо очень ограниченного набора обстоятельств, наиболее полезные оценки являются предвзятыми, однако они получены.
Если две оценки имеют одинаковую дисперсию, можно легко выдвинуть аргумент в пользу предпочтения непредвзятого, а не предвзятого, но это необычная ситуация (то есть, вы можете разумно предпочесть непредвзятость, при прочих равных условиях - но эти противные при прочих равных условиях почти никогда не парит )
Более типично, если вы хотите непредвзятости, вы добавите некоторую дисперсию, чтобы получить ее, и тогда возникнет вопрос: зачем вам это делать ?
Смещение - это то, насколько ожидаемое значение моей оценки будет в среднем слишком высоким (с отрицательным смещением, указывающим на слишком низкое значение).
Когда я рассматриваю небольшую оценочную выборку, меня это не волнует. Меня обычно больше интересует, насколько ошибочной будет моя оценка в этом случае - мое типичное расстояние справа ... что-то вроде среднеквадратичной ошибки или средней абсолютной ошибки будет иметь больше смысла.
Так что, если вам нравится низкая дисперсия и низкое смещение, имеет смысл попросить сказать, например, оценку минимальной среднеквадратичной ошибки ; это очень редко непредвзято.
Предвзятость и непредвзятость - это полезное понятие, о котором нужно знать, но это не особенно полезное свойство для поиска, если только вы не сравниваете оценки с одной и той же дисперсией.
Оценки ML имеют тенденцию быть низкой дисперсией; они обычно не являются минимальными MSE, но они часто имеют более низкую MSE, чем дает изменение их, чтобы они были беспристрастными (когда вы можете сделать это вообще).
В качестве примера рассмотрит оценку дисперсии при отборе проб из нормального распределения σ 2 МСКО = S 2 (действительно, MMSE для дисперсии всегда имеет больший знаменатель, чемn-1).σ^2MMSE= S2n + 1, σ^2MLE= S2N, σ^2Unb= S2n - 1 n - 1
источник
MLE дает наиболее вероятное значение параметров модели, учитывая модель и имеющиеся данные, что является довольно привлекательной концепцией. Почему вы выбираете значения параметров, которые делают наблюдаемые данные менее вероятными, если вы можете выбрать значения, которые делают наблюдаемые данные наиболее вероятными среди любого набора значений? Хотели бы вы пожертвовать этой функцией ради непредвзятости? Я не говорю, что ответ всегда ясен, но мотивация для MLE довольно сильна и интуитивна.
Кроме того, MLE может быть более широко применимым, чем метод моментов, насколько я знаю. MLE кажется более естественным в случаях скрытых переменных; например, модель скользящего среднего (MA) или модель обобщенной авторегрессионной условной гетероскедастичности (GARCH) могут быть непосредственно оценены с помощью MLE (я имею в виду, что достаточно указать функцию вероятности и передать ее в процедуру оптимизации), но не методом моментов (хотя могут существовать косвенные решения, использующие метод моментов).
источник
На самом деле, масштабирование оценок максимального правдоподобия для получения несмещенных оценок является стандартной процедурой во многих задачах оценки. Причина этого заключается в том, что mle является функцией достаточной статистики, и поэтому по теореме Рао-Блэкуэлла, если вы можете найти несмещенную оценку, основанную на достаточной статистике, тогда у вас есть несмещенный оценщик с минимальной дисперсией.
Я знаю, что ваш вопрос носит более общий характер, но я хочу подчеркнуть, что ключевые понятия тесно связаны с вероятностью и оценками, основанными на нем. Эти оценки не могут быть несмещенными в конечных выборках, но они асимптотически и, кроме того, они асимптотически эффективны, т.е. они достигают границы дисперсии Крамера-Рао для несмещенных оценок, что не всегда может иметь место для оценок MOM.
источник
Чтобы ответить на ваш вопрос о том, почему MLE так популярен, учтите, что, хотя он может быть предвзятым, он соответствует стандартным условиям. Кроме того, он асимптотически эффективен, поэтому, по крайней мере, для больших образцов MLE, вероятно, будет так же лучше или лучше, чем любой другой оценщик, который вы можете приготовить. Наконец, MLE находится по простому рецепту; взять функцию вероятности и максимизировать ее. В некоторых случаях этому рецепту может быть трудно следовать, но для большинства проблем это не так. Кроме того, как только вы получите эту оценку, мы можем вывести асимптотические стандартные ошибки сразу, используя информацию Фишера. Без использования информации Фишера часто очень трудно определить границы ошибок.
Вот почему оценка MLE очень часто используется для оценки (если вы не байесовский); это просто реализовать и, вероятно, будет так же хорошо, если не лучше, чем что-либо еще, вам нужно сделать больше работы, чтобы приготовить.
источник
Я бы добавил, что иногда (часто) мы используем оценку MLE, потому что это то, что мы получили, даже если в идеальном мире это не было бы тем, что мы хотим. (Я часто думаю о статистике как об инженерном, где мы используем то, что получили, а не то, что хотим.) Во многих случаях легко определить и решить для MLE, а затем получить значение с помощью итеративного подхода. Принимая во внимание, что для данного параметра в данной ситуации может быть лучшая оценка (для некоторого значения «лучше»), но обнаружение этого может потребовать быть очень умным; и когда вы закончите быть умным, у вас останется только лучшая оценка для этой конкретной проблемы.
источник