Предпосылка: это может быть глупый вопрос. Я знаю только утверждения об асимптотических свойствах MLE, но я никогда не изучал доказательства. Если бы я это сделал, возможно, я бы не стал задавать эти вопросы, или, может быть, я бы понял, что эти вопросы не имеют смысла ... поэтому, пожалуйста, будьте осторожны со мной
Я часто видел утверждения, в которых говорится, что оценка MLE параметров модели асимптотически нормальна и эффективна. Заявление обычно пишется как
качестве
где есть число образцов, информация Фишер и является параметром (вектор) истинное значение . Теперь, поскольку есть ссылка на истинную модель, означает ли это, что результат не будет иметь место, если модель не соответствует действительности?
Пример: предположим, что я моделирую выходную мощность ветровой турбины как функцию скорости ветра плюс аддитивный гауссов шум
Я знаю, что модель неверна, по крайней мере, по двум причинам: 1) действительно пропорционален третьей степени и 2) ошибка не аддитивна, потому что я пренебрегал другими предикторами, которые не коррелируют со скоростью ветра (я также знаю, что должен быть 0 , поскольку при 0 скорости ветра никакой силы не генерируется, но это не имеет значения здесь). Теперь предположим, что у меня есть бесконечная база данных о мощности и скорости ветра от моей ветряной турбины. Я могу нарисовать столько образцов, сколько захочу, любого размера. Предположим, я нарисовал 1000 образцов, каждый размером 100, и вычислил , MLE-оценкуβ=(β0,β1,β2)(что по моей модели будет просто оценка OLS). Таким образом, у меня есть 1000 образцов из дистрибутива . Я могу повторить упражнение с . Как , должно ли распределение иметь тенденцию быть асимптотически нормальным с указанным средним и дисперсией? Или тот факт, что модель неверна, лишает законной силы этот результат?
Причина, по которой я спрашиваю, состоит в том, что редко (если когда-либо) модель «верна» в приложениях. Если асимптотические свойства MLE теряются, когда модель неверна, то может иметь смысл использовать другие принципы оценки, которые, хотя и менее эффективны в условиях, когда модель верна, могут работать лучше, чем MLE в других случаях.
РЕДАКТИРОВАТЬ : было отмечено в комментариях, что понятие истинной модели может быть проблематичным. Я имел в виду следующее определение: учитывая семейство моделей обозначаемых параметром vector , для каждой модели в семействе вы всегда можете написать θ
просто определив как . Тем не менее, в общем случае ошибка не будет ортогональной к , будет иметь среднее значение 0 и не обязательно будет иметь распределение, предполагаемое при выводе модели. Если существует значение такое, что имеет эти два свойства, а также предполагаемое распределение, я бы сказал, что модель верна. Я думаю, что это напрямую связано с утверждением, что , потому что член ошибки в разложенииY - f θ ( X ) X θ 0 ϵ f θ 0 ( X ) = E [ Y | X ]
имеет два свойства, упомянутых выше.
источник
Ответы:
Я не верю, что есть один ответ на этот вопрос.
Когда мы учитываем возможную ошибочную спецификацию распределения при применении оценки максимального правдоподобия, мы получаем то, что называется оценкой «квазимаксимального правдоподобия» (QMLE). В некоторых случаях QMLE является как последовательным, так и асимптотически нормальным.
Что он теряет с уверенностью, так это асимптотическая эффективность. Это связано с тем, что асимптотическая дисперсия (это величина, имеющая асимптотическое распределение, а не только ) во всех случаях θn−−√(θ^−θ) θ^
где - гессенская матрица логарифмического правдоподобия, а - градиент, а шапка указывает выборочные оценки.H S
Теперь, если у нас есть правильная спецификация, мы получаем, во-первых, что
где индекс « » обозначает оценку при истинных параметрах (и обратите внимание, что средний термин является определением информации Фишера), и, во-вторых, что « равенство информационной матрицы » выполняется и утверждает, что , что означает, что асимптотическая дисперсия, наконец, будет0 −E[H0]=E[S0ST0]
которая является обратной к информации Фишера.
Но если мы имеем неправильную спецификацию, выражение не приводит к выражению (потому что первое и второе производные в были получены на основе неправильной вероятности). Это, в свою очередь, означает, что неравенство в информационной матрице не выполняется, что мы не попадаем в выражение , и что (Q) MLE не достигает полной асимптотической эффективности.( 2 ) ( 1 ) ( 3 )(1) (2) (1) (3)
источник