Является ли оценка MLE асимптотически нормальной и эффективной, даже если модель неверна?

13

Предпосылка: это может быть глупый вопрос. Я знаю только утверждения об асимптотических свойствах MLE, но я никогда не изучал доказательства. Если бы я это сделал, возможно, я бы не стал задавать эти вопросы, или, может быть, я бы понял, что эти вопросы не имеют смысла ... поэтому, пожалуйста, будьте осторожны со мной

Я часто видел утверждения, в которых говорится, что оценка MLE параметров модели асимптотически нормальна и эффективна. Заявление обычно пишется как

θ^dN(θ0,I(θ0)1)качествеN

где N есть число образцов, I информация Фишер и θ0 является параметром (вектор) истинное значение . Теперь, поскольку есть ссылка на истинную модель, означает ли это, что результат не будет иметь место, если модель не соответствует действительности?

Пример: предположим, что я моделирую выходную мощность ветровой турбины P как функцию скорости ветра V плюс аддитивный гауссов шум

P=β0+β1V+β2V2+ϵ

Я знаю, что модель неверна, по крайней мере, по двум причинам: 1) P действительно пропорционален третьей степени V и 2) ошибка не аддитивна, потому что я пренебрегал другими предикторами, которые не коррелируют со скоростью ветра (я также знаю, что β0 должен быть 0 , поскольку при 0 скорости ветра никакой силы не генерируется, но это не имеет значения здесь). Теперь предположим, что у меня есть бесконечная база данных о мощности и скорости ветра от моей ветряной турбины. Я могу нарисовать столько образцов, сколько захочу, любого размера. Предположим, я нарисовал 1000 образцов, каждый размером 100, и вычислил , MLE-оценкуβ=(β0,β1,β2)β^100β=(β0,β1,β2)(что по моей модели будет просто оценка OLS). Таким образом, у меня есть 1000 образцов из дистрибутива β^100 . Я могу повторить упражнение с N=500,1000,1500, . Как N , должно ли распределение β^N иметь тенденцию быть асимптотически нормальным с указанным средним и дисперсией? Или тот факт, что модель неверна, лишает законной силы этот результат?

Причина, по которой я спрашиваю, состоит в том, что редко (если когда-либо) модель «верна» в приложениях. Если асимптотические свойства MLE теряются, когда модель неверна, то может иметь смысл использовать другие принципы оценки, которые, хотя и менее эффективны в условиях, когда модель верна, могут работать лучше, чем MLE в других случаях.

РЕДАКТИРОВАТЬ : было отмечено в комментариях, что понятие истинной модели может быть проблематичным. Я имел в виду следующее определение: учитывая семейство моделей обозначаемых параметром vector , для каждой модели в семействе вы всегда можете написать θfθ(x)θ

Y=fθ(X)+ϵ

просто определив как . Тем не менее, в общем случае ошибка не будет ортогональной к , будет иметь среднее значение 0 и не обязательно будет иметь распределение, предполагаемое при выводе модели. Если существует значение такое, что имеет эти два свойства, а также предполагаемое распределение, я бы сказал, что модель верна. Я думаю, что это напрямую связано с утверждением, что , потому что член ошибки в разложенииY - f θ ( X ) X θ 0 ϵ f θ 0 ( X ) = E [ Y | X ]ϵYfθ(X)Xθ0ϵfθ0(X)=E[Y|X]

Y=E[Y|X]+ϵ

имеет два свойства, упомянутых выше.

DeltaIV
источник
3
Оценка MLE часто асимптотически нормальна, даже если модель не соответствует действительности, например, она может быть согласованной для значений «наименьшего ложного» параметра. Но в таких случаях будет трудно продемонстрировать эффективность или другие оптимальные свойства.
kjetil b halvorsen
1
Перед эффективностью мы должны смотреть на последовательность. В сценарии, когда истина не находится в вашем пространстве поиска, нам нужно другое определение согласованности, такое что: d (P *, P), где d - дивергенция, P * - самая близкая модель с точки зрения d, а P - правда. Например, когда d является дивергенцией KL (то, что MLE сводит к минимуму), известно, что байесовские процедуры несовместимы (не могут достичь ближайшей модели), если модель не является выпуклой. Поэтому я предполагаю, что MLE также будет несовместимым. Поэтому эффективность становится плохо определенной. homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf
Кагдас Озгенц
1
@Cagdas Ozgenc: во многих случаях (например, логистическая регрессия) MLE все еще остается неизменным для параметров «наименьшего ложного». У вас есть ссылка на ваше заявление о несоответствии в невыпуклом случае? Было бы очень интересно? (Функция правдоподобия логистической регрессии выпуклая)
kjetil b halvorsen
@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf Это над моей головой, но это то, что я понимаю. Если мое понимание неверно, поправьте меня. Я просто любитель в конце концов.
Кагдас Озгенц
4
Я думаю, что у нас возникают проблемы, когда мы используем такие термины, как «модель верна» или «наименее ложно». При работе с моделями на практике все они приблизительны. Если мы сделаем определенные предположения, мы можем использовать математику, чтобы показать статистические свойства. Здесь всегда существует конфликт между математикой вероятности и практическим анализом данных.
Майкл Р. Черник

Ответы:

4

Я не верю, что есть один ответ на этот вопрос.

Когда мы учитываем возможную ошибочную спецификацию распределения при применении оценки максимального правдоподобия, мы получаем то, что называется оценкой «квазимаксимального правдоподобия» (QMLE). В некоторых случаях QMLE является как последовательным, так и асимптотически нормальным.

Что он теряет с уверенностью, так это асимптотическая эффективность. Это связано с тем, что асимптотическая дисперсия (это величина, имеющая асимптотическое распределение, а не только ) во всех случаях θn(θ^θ)θ^

(1)Avar[n(θ^θ)]=plim([H^]1[S^S^T][H^]1)

где - гессенская матрица логарифмического правдоподобия, а - градиент, а шапка указывает выборочные оценки.HS

Теперь, если у нас есть правильная спецификация, мы получаем, во-первых, что

(2)Avar[n(θ^θ)]=(E[H0])1E[S0S0T](E[H0])1

где индекс « » обозначает оценку при истинных параметрах (и обратите внимание, что средний термин является определением информации Фишера), и, во-вторых, что « равенство информационной матрицы » выполняется и утверждает, что , что означает, что асимптотическая дисперсия, наконец, будет0E[H0]=E[S0S0T]

(3)Avar[n(θ^θ)]=(E[H0])1

которая является обратной к информации Фишера.

Но если мы имеем неправильную спецификацию, выражение не приводит к выражению (потому что первое и второе производные в были получены на основе неправильной вероятности). Это, в свою очередь, означает, что неравенство в информационной матрице не выполняется, что мы не попадаем в выражение , и что (Q) MLE не достигает полной асимптотической эффективности.( 2 ) ( 1 ) ( 3 )(1)(2)(1)(3)

Алекос Пападопулос
источник
плим θAvar - это асимптотическая дисперсия случайной величины, а означает сходимость по вероятности, верно? Ваш ответ кажется очень интересным, но я не понимаю, что такое в вашем контексте. Я имел в виду случай, когда правильное значение просто не существует: см. Мой пример с ветряной турбиной, где независимо от значения , нет значение , что делает модель правильно, потому что нет термина, а потому , что другие предсказатели коррелировали с отсутствуют. Что бы в этом контексте значило ? plimθθβ 3 V θβ=(β0,β1,β2)β3Vθ
DeltaIV
извините, первое издание моего комментария было непонятно: теперь моя точка зрения должна быть ясной. Другими словами, если нет «истинного» , что мы должны интерпретировать как в выражении ? θ θθn(θ^θ)
DeltaIV
1
@DeltaIV Ноль. Будет ли QMLE «ловить» это? Зависит от того, будет ли он последовательным или нет - и опять же, нет однозначного ответа на этот вопрос
Алекос Пападопулос
1
Я понял. Таким образом, QMLE (если он согласован) должен сходиться к : я бы подумал, что оно сходится к некоторому «наименьшему ложному» значению параметра, как это было предложено @kjetilbhalvorsen. Можете ли вы предложить какую-либо ссылку на QMLE и уравнения, которые вы написали? Спасибоθ=0
DeltaIV
1
@DeltaIV Я бы предложил выставку в Hayashi ch. 7 об оценках экстремума, что касается согласованности, нормальности MLE и т. Д. Что касается QMLE, то тема довольно обширная. Например, в «QMLE» у нас действительно могут быть ситуации, когда мы с самого начала признаем, что оцениваемые нами параметры могут не иметь четкой связи с какими-либо «истинными параметрами» (но упражнение все еще действует в качестве приблизительного). и, таким образом, получить «наименее ложный» вектор, как предлагается.
Алекос Пападопулос