Есть ли пример, где MLE дает необъективную оценку среднего значения?

17

Можете ли вы привести пример оценки MLE среднего значения, которое смещено?

Я не ищу пример, который нарушает оценки MLE в целом, нарушая условия регулярности.

Все примеры, которые я вижу в Интернете, относятся к расхождению, и я не могу найти ничего, связанного со средним значением.

РЕДАКТИРОВАТЬ

@MichaelHardy предоставил пример, в котором мы получаем предвзятую оценку среднего значения равномерного распределения, используя MLE при определенной предложенной модели.

тем не мение

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

предполагает, что MLE является равномерно минимальной несмещенной оценкой среднего значения, явно под другой предложенной моделью.

На данный момент мне все еще не очень понятно, что подразумевается под оценкой MLE, если это очень гипотетически зависимая модель, а не выборочная средняя оценка, которая является нейтральной по модели. В конце я заинтересован в оценке чего-то о населении, и меня не волнует оценка параметра гипотетической модели.

РЕДАКТИРОВАТЬ 2

Как показал @ChristophHanck, модель с дополнительной информацией привела к смещению, но уменьшить MSE не удалось.

У нас также есть дополнительные результаты:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (слайд 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (слайд 5)

«Если существует наиболее эффективная несмещенная оценка ˆθ от θ (т. Е. ˆΘ является несмещенной и ее дисперсия равна CRLB), то метод оценки с максимальной вероятностью даст его».

«Более того, если существует эффективная оценка, это оценка ML».

Поскольку MLE со свободными параметрами модели является беспристрастным и эффективным, по определению это «Оценщик максимального правдоподобия»?

РЕДАКТИРОВАТЬ 3

У @AlecosPapadopoulos есть пример с распространением Half Normal на математическом форуме.

/math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao

Он не привязывает ни один из его параметров, как в обычном случае. Я бы сказал, что это решает проблему, хотя он не продемонстрировал предвзятости средней оценки.

Кагдас Озгенц
источник
10
Среднее значение формы на ноль и тета.
Кристоф Ханк
1
Я не могу проследить ваше различие между «оценкой чего-либо о населении» и «параметром предполагаемой модели». Во всей параметрической статистике мы параметризуем популяцию по некоторым параметрам. Конечно, мы можем столкнуться с ошибочной спецификацией, но это, похоже, не относится к рассматриваемой проблеме.
Кристоф Ханк
5
Например, то, что популяция может быть охарактеризована ее параметрами / моментами, такими как среднее значение и дисперсия (которых было бы достаточно, например, для нормальной популяции). И: я не думаю, что люди более или менее педантичны с вами, чем с кем-либо еще на этом форуме.
Кристоф Ханк
2
Если вас не устраивает очевидная ловкость рук в переключении между «параметром» и «средним», позвольте мне определить определенное неотрицательное распределение в терминах его среднего с плотностью 1μ на его поддержку12μ ...[0,2μ]
Silverfish
1
Что касается вашего редактирования 2, многие из этих результатов получены в условиях регулярности, которые не выполняются для унифицированного примера, обсуждаемого в этой теме, для которого выборочное пространство зависит от параметра.
Кристоф Ханк

Ответы:

32

Кристоф Ханк не опубликовал детали своего предложенного примера. Я так понимаю, он имеет в виду равномерное распределение на интервале основанное на iid выборке X 1 , , X n размером больше, чем n = 1.[0,θ],X1,,Xnn=1.

Среднее значение .θ/2

MLE среднего значения max{X1,,Xn}/2.

Это смещено, так как так что EPr(max<θ)=1,E(max/2)<θ/2.

PS: Возможно, мы должны отметить, что лучшая объективная оценка среднего - этонесреднее значение выборки, а n + 1.θ/2

n+12nmax{X1,,Xn}.
Среднее значение выборки является паршивой оценкой потому что для некоторых образцов среднее значение выборки составляет менее 1θ/2и совершенно очевидно, чтоθ/2меньше, чемmax/2.конец PS12max{X1,,Xn},θ/2max/2.

Я подозреваю, что распределение Парето - еще один такой случай. Вот мера вероятности: Ожидаемое значениеα

α(κx)α dxx for x>κ.
MLE ожидаемого значения nαα1κ. гдемин=мин{Х1,...,Хп}.
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

Я не определил ожидаемое значение MLE для среднего значения, поэтому я не знаю, каково его смещение.

Майкл Харди
источник
12
Cagdas, это не законно просить контрпример, а затем отрицать, что вы предлагаете что-то еще! Это все равно, что попросить пример с фруктом, который не красного цвета, показать чернику, а потом сказать, что это не считается, потому что ты не любишь чернику.
whuber
7
Это не относится к вопросу, который вы задали.
uuber
8
@CagdasOzgenc: зависит от модели MLE или нет, зависит от модели. Нет такой вещи как MLE без модели. И если вы измените модель, вы измените MLE.
Майкл Харди
8
@CagdasOzgenc Вот сократический вопрос: выборочное среднее - это объективная оценка чего? Вам нужна модель, чтобы иметь параметр для оценки.
Мэтью Друри
9
Среднее значение выборки iid является объективной оценкой среднего значения совокупности, но нельзя говорить об оценке максимального правдоподобия чего-либо без большей структуры, чем то, что необходимо, чтобы говорить о непредвзятой оценке чего-либо.
Майкл Харди
18

Вот пример, который я думаю, некоторые могут найти удивительным:

В логистической регрессии для любого конечного размера выборки с недетерминированными результатами (т. Е. ), любой оценочный коэффициент регрессии не только смещен, среднее значение коэффициента регрессии фактически не определено.0<pi<1

Это связано с тем, что для любого конечного размера выборки существует положительная вероятность (хотя и очень мала, если число выборок велико по сравнению с количеством параметров регрессии) получить идеальное разделение результатов. Когда это произойдет, оценочные коэффициенты регрессии будут либо либо . Наличие положительной вероятности того, что либо - ∞, либо ∞, означает, что ожидаемое значение не определено.

Подробнее об этой конкретной проблеме см. Эффект Хаука-Доннера .

Клифф AB
источник
1
Это довольно умно. Интересно, является ли MLE коэффициентов логистической регрессии беспристрастным условием отсутствия возникновения эффекта Хаука-Доннера?
gung - Восстановить Монику
3
@gung: Короткий ответ: игнорируя эффект Хаука-Доннера, в абсолютных коэффициентах регрессии все еще наблюдается смещение вверх (т. е. отрицательные коэффициенты имеют смещение вниз, положительные имеют смещение вверх). Интересно, что в оценочных вероятностях наблюдается смещение в сторону 0,5. Я начал писать об этом в этом посте , но не опубликовал свои результаты в отношении предвзятых вероятностей.
Клифф AB
10

Хотя @MichaelHardy высказал эту точку зрения, здесь приведен более подробный аргумент о том, почему MLE максимума (и, следовательно, среднего значения по инвариантности) не является непредвзятым, хотя и находится в другой модели (см. редактирование ниже).θ/2

Оценим верхнюю границу равномерного распределения . Здесь y ( n ) - MLE для случайной выборки y . Покажем, что у ( п )U[0,θ]y(n)yy(n) не беспристрастно. Его cdf это Таким образом, его плотность равна fy(n)(x)=

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
следовательно, E [
fy(n)(x)={nθ(xθ)n1for0xθ0else
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

РЕДАКТИРОВАТЬ: Это действительно тот случай, когда (см. Обсуждение в комментариях) MLE несмещен для среднего в случае, когда и нижняя граница и верхняя граница b неизвестны. Тогда минимальный Y ( 1 ) является MLE для a с (детали опущены) ожидаемым значением E ( Y ( 1 ) ) = nabY(1)a то время как E(Y(n))=nb+a

E(Y(1))=na+bn+1
так что MLE для(a+b)/2равно Y ( 1 ) +Y ( n )
E(Y(n))=nb+an+1
(a+b)/2 с ожидаемым значением E( Y ( 1 ) + Y ( n )
Y(1)+Y(n)2
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

РЕДАКТИРОВАТЬ 2: Чтобы уточнить точку зрения Генри, здесь есть небольшая симуляция для MSE оценок среднего значения, показывающая, что, хотя MLE, если мы не знаем, что нижняя граница равна нулю, является несмещенной, MSE для двух вариантов идентичны , предполагая, что оценщик, который включает в себя знание нижней границы, уменьшает изменчивость.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968
Кристоф Ханк
источник
Потому что Википедия предлагает другую модель для начала. Вот где мое замешательство.
Кагдас Озгенц
Да, но как только мы приспособимся к обсуждаемому здесь особому случаю, а именно к , мы вернемся к квадрату 1. В этом случае нам больше не нужен выборочный минимум для оценки, поскольку мы знаем, что нижняя граница равна нулю, так что MLE средней точки (= медиана = среднее) просто становится ( m a x + 0a=0(max+0)/2
2
Я не проработал детали, но MLE в этой модели может быть беспристрастным, если минимум переоценивает нижнюю границу на ту же величину, что и максимум, недооценивает максимум, так что средняя точка оценивается без смещения.
Кристоф Ханк
4
@CagdasOzgenc: непредвзятость не является единственной или даже самой важной мерой улучшения . Точно зная один конец поддержки, вы можете потерять баланс между ошибками в оценке среднего значения, но в итоге вы получите (например) лучшую оценку диапазона
Генри
6
Оценщики максимального правдоподобия не всегда являются «лучшими» по всем критериям для небольших размеров выборки. Ну и что? Они тоже не притворяются. Если вы хотите использовать другой оценщик для вашей задачи, который имеет лучшие свойства в соответствии с некоторым критерием для размеров выборки, которые находятся вблизи вашего фактического размера выборки, вы можете это сделать. Я делаю так, как и другие люди. Никто не утверждает, что использование MLE оправдано во всех ситуациях только потому, что это MLE.
Jbowman
5

Завершая здесь упущение в моем ответе на math.se ссылается OP,

n распределением . Плотность и моменты этого распределения

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

Логарифмическая вероятность выборки

L(vx)=nln2/πn2lnv12vi=1nxi2

The first derivative with respect to v is

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ
Alecos Papadopoulos
источник
4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.

AdamO
источник
2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB
1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO
3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
Xi'an
источник