Для каких моделей смещение MLE падает быстрее, чем дисперсия?

14

Пусть θ будет оценка максимального правдоподобия истинного параметра некоторой модели. По мере увеличения числа точек данных ошибка обычно уменьшается как O (1 / \ sqrt n) . Используя неравенство треугольника и свойства ожидания, можно показать, что этот коэффициент ошибок подразумевает, что оба «смещения» \ lVert \ mathbb E \ hat \ theta - \ theta ^ * \ rVert и «отклонение» \ lVert \ mathbb E \ hat \ theta - \ hat \ theta \ rВерт уменьшается при том же O (1 / \ sqrt {n})θ^ п | | θ - θ * | | O ( 1 / θnθ^θ| |E θ -θ*| || |E θ - θ | |O(1/O(1/n)Eθ^θEθ^θ^O(1/n)темп. Конечно, модели могут иметь смещение, которое сокращается с большей скоростью. Многие модели (например, регрессия по методу наименьших квадратов) не имеют смещения.

Мне интересны модели, которые имеют смещение, которое уменьшается быстрее, чем , но где ошибка не уменьшается с этой более высокой скоростью, потому что отклонение все еще уменьшается как . В частности, я хотел бы знать достаточные условия для смещения модели со скоростью .O(1/O(1/n)O(1/n)O(1/n)O(1/n)

Майк Избицкий
источник
Имеет ли ? Или? θ^θ=(θ^θ)2
Алекос Пападопулос
Я специально спрашивал о норме L2, да. Но я также был бы заинтересован в других нормах, если это облегчает вопрос.
Майк
(θ^θ)2 - это . Op(1/n)
Алекос Пападопулос
Извините, я неправильно прочитал ваш комментарий. Для нормы L2 в измерениях, , поэтому сходимость происходит за счет . Я согласен, что если бы мы возвели в квадрат это тогда, это сходилось бы как . dab=i=1d(aibi)2O(1/n)O(1/n)
Майк
Вы видели регрессионный документ (Hoerl & Kennard 1970)? Я считаю, что это дает условия на матрицу дизайна + штраф, где это, как ожидается, будет правдой.
DCL

Ответы:

5

В общем, вам нужны модели, в которых MLE не асимптотически нормален, а сходится к некоторому другому распределению (и делает это с большей скоростью). Это обычно происходит, когда оцениваемый параметр находится на границе пространства параметров. Интуитивно это означает, что MLE будет приближаться к параметру «только с одной стороны», поэтому он «улучшает скорость сходимости», поскольку он не «отвлекается», обходя «назад и вперед» вокруг параметра.

Стандартным примером является MLE для θ в выборке iid из U(0,θ) равномерных rv. Здесь MLE - это статистика максимального порядка,

θ^n=u(n)

Его конечное распределение выборки

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E(θ^n)=nn+1θB(θ^)=1n+1θ

Таким образом , . Но такая же повышенная ставка будет сохраняться и для дисперсии.B(θ^n)=O(1/n)

Можно также проверить , что для получения предельного распределения, мы должны смотреть на переменную , (т.е. мы должны масштабе п ) , так какn(θθ^n)n

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

который является CDF экспоненциального распределения.

Я надеюсь, что это дает некоторое направление.

Алекос Пападопулос
источник
Это близко, но меня особенно интересуют ситуации, когда смещение уменьшается быстрее, чем дисперсия.
Майк
2
@MikeIzbicki Hmm... the bias convergence depends on the first moment of the distribution, and the (square root of the) variance is also a "first-order" magnitude. I am not sure then that this is possible to happen, because it appears that it would imply that the moments of the limiting distribution "arise" at convergence rates that are not compatible with each other... I' ll think about it though.
Alecos Papadopoulos
2

Following comments in my other answer (and looking again at the title of the OP's question!), here is an not very rigorous theoretical exploration of the issue.

We want to determine whether Bias B(θ^n)=E(θ^n)θ may have different convergence rate than the square root of the Variance,

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

We have

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

(1)[E(θ^n)]2=O(1/n2δ)

while

Var(θ^n)=O(1/nγ)limnγE(θ^n2)[E(θ^n)]2<M

limn2γE(θ^n2)n2γ[E(θ^n)]2<M

(2)limn2γE(θ^n2)limn2γ[E(θ^n)]2<M

We see that (2) may hold happen if

A) both components are O(1/n2γ), in which case we can only have γ=δ.

B) But it may also hold if

(3)limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)

For (3) to be compatible with (1), we must have

(4)n2γ<n2δδ>γ

So it appears that in principle it is possible to have the Bias converging at a faster rate than the square root of the variance. But we cannot have the square root of the variance converging at a faster rate than the Bias.

Alecos Papadopoulos
источник
How would you reconcile this with the existence of unbiased estimators like ordinary least squares? In that case, B(θ^)=0, but Var(θ^)=O(1/n).
Mike Izbicki
@MikeIzbicki Is the concept of convergence/big-O applicable in this case? Because here B(θ^) is not "O()-anything" to begin with.
Alecos Papadopoulos
In this case, Eθ^=θ, so B(θ^)=Eθ^θ=0=O(1)=O(1/n0).
Mike Izbicki
@MikeIzbicki But also B(θ^)=O(n) or B(θ^)=O(1/n) or any other you care to write down. So which one is the rate of convergence here?
Alecos Papadopoulos
@MikeIzbicki I have corrected my answer to show that it is possible in principle to have the Bias converging faster, although I still think the "zero-bias" example is problematic.
Alecos Papadopoulos