Пусть θ будет оценка максимального правдоподобия истинного параметра некоторой модели. По мере увеличения числа точек данных ошибка обычно уменьшается как O (1 / \ sqrt n) . Используя неравенство треугольника и свойства ожидания, можно показать, что этот коэффициент ошибок подразумевает, что оба «смещения» \ lVert \ mathbb E \ hat \ theta - \ theta ^ * \ rVert и «отклонение» \ lVert \ mathbb E \ hat \ theta - \ hat \ theta \ rВерт уменьшается при том же O (1 / \ sqrt {n}) п | | θ - θ * | | O ( 1 / √| |E θ -θ*| || |E θ - θ | |O(1/ √темп. Конечно, модели могут иметь смещение, которое сокращается с большей скоростью. Многие модели (например, регрессия по методу наименьших квадратов) не имеют смещения.
Мне интересны модели, которые имеют смещение, которое уменьшается быстрее, чем , но где ошибка не уменьшается с этой более высокой скоростью, потому что отклонение все еще уменьшается как . В частности, я хотел бы знать достаточные условия для смещения модели со скоростью .O(1/ √O(1/n)
источник
Ответы:
В общем, вам нужны модели, в которых MLE не асимптотически нормален, а сходится к некоторому другому распределению (и делает это с большей скоростью). Это обычно происходит, когда оцениваемый параметр находится на границе пространства параметров. Интуитивно это означает, что MLE будет приближаться к параметру «только с одной стороны», поэтому он «улучшает скорость сходимости», поскольку он не «отвлекается», обходя «назад и вперед» вокруг параметра.
Стандартным примером является MLE дляθ в выборке iid из U(0,θ) равномерных rv. Здесь MLE - это статистика максимального порядка,
Его конечное распределение выборки
Таким образом , . Но такая же повышенная ставка будет сохраняться и для дисперсии.B(θ^n)=O(1/n)
Можно также проверить , что для получения предельного распределения, мы должны смотреть на переменную , (т.е. мы должны масштабе п ) , так какn(θ−θ^n) n
который является CDF экспоненциального распределения.
Я надеюсь, что это дает некоторое направление.
источник
Following comments in my other answer (and looking again at the title of the OP's question!), here is an not very rigorous theoretical exploration of the issue.
We want to determine whether BiasB(θ^n)=E(θ^n)−θ may have different convergence rate than the square root of the Variance,
We have
while
We see that(2) may hold happen if
A) both components areO(1/n2γ) , in which case we can only have γ=δ .
B) But it may also hold if
For(3) to be compatible with (1) , we must have
So it appears that in principle it is possible to have the Bias converging at a faster rate than the square root of the variance. But we cannot have the square root of the variance converging at a faster rate than the Bias.
источник