Линейная регрессия: есть ли ненормальное распределение, дающее идентичность OLS и MLE?

13

Этот вопрос вдохновлен долгим обсуждением в комментариях здесь: Как линейная регрессия использует нормальное распределение?

В обычной модели линейной регрессии для простоты здесь написано только с одним предиктором:

Yi=β0+β1xi+ϵi
где xi - известные константы, а ϵi - члены с независимой ошибкой с нулевым средним. Если дополнительно допустить нормальное распределение ошибок, то обычные оценки наименьших квадратов и оценки максимального правдоподобия β0,β1 идентичны.

Поэтому мой простой вопрос: существует ли какое-либо другое распределение для членов ошибки, такое, что mle совпадает с обычным оценщиком наименьших квадратов? Одно следствие легко показать, другое нет.

Къетил б Халворсен
источник
1
(+1) Это должно быть распределение с центром вокруг нуля, и, казалось бы, было бы полезно, если бы оно было симметричным. Некоторые кандидаты, которые приходят на ум, такие как t- или распределение Лапласа, похоже, не справляются с задачей, поскольку MLE, даже в случае единственного постоянного, недоступен в закрытой форме или задан медианой соответственно.
Кристоф Ханк,
см. также stats.stackexchange.com/questions/99014/… кажется, что найти так много всего
Кристоф Ханк,
Я уверен, что ответ - нет. Однако может быть трудно написать строгое доказательство.
Гордон Смит

Ответы:

11

При оценке максимального правдоподобия мы рассчитываем

β^ML:lnf(ϵi)β=0f(ϵi)f(ϵi)xi=0

последнее соотношение с учетом линейной структуры уравнения регрессии.

Для сравнения, оценка МНК удовлетворяет

ϵixi=0

Чтобы получить идентичные алгебраические выражения для коэффициентов наклона, нам нужно иметь плотность для члена ошибки, такую, чтобы

f(ϵi)f(ϵi)=±cϵif(ϵi)=±cϵif(ϵi)

Это дифференциальные уравнения вида которых есть решенияy=±xy

1ydy=±xdxlny=±12x2

y=f(ϵ)=exp{±12cϵ2}

Любая функция, которая имеет это ядро ​​и интегрируется в единицу по соответствующей области, сделает MLE и OLS для коэффициентов наклона идентичными. А именно мы ищем

g(x)=Aexp{±12cx2}:abg(x)dx=1

Существует ли такой который не является нормальной плотностью (или полунормальной, или производной функции ошибки)? g

Конечно. Но еще одна вещь, которую нужно учитывать, заключается в следующем: если использовать показатель плюс в показателе степени и симметричную опору, например, около нуля, получится плотность, которая имеет уникальный минимум в середине, и два локальных максимума при Границы поддержки.

Алекос Пападопулос
источник
Отличный ответ (+1), но если в функции использовать знак плюс, это даже плотность? Тогда оказалось бы, что функция имеет бесконечный интеграл и поэтому не может быть нормализована к функции плотности. Если это так, у нас остается только нормальное распределение.
Восстановите Монику
1
@Ben Спасибо. Кажется, что вы неявно предполагаете, что диапазон случайной величины будет плюс / минус бесконечность. Но мы можем определить rv для диапазона в ограниченном интервале, и в этом случае мы можем очень хорошо использовать знак плюс. Вот почему в своих выражениях я использовал как пределы интеграции . (a,b)
Алекос Пападопулос
Это правда - я предполагал это.
Восстановить Монику
5

argβ0,β1mini=1n(yiβ0β1xi)2
f(y|x,β0,β1)
argβ0,β1mini=1nlog{f(yi|xi,β0,β1)}=argβ0,β1mini=1n(yiβ0β1xi)2
f(y|x,β0,β1)=f0(y|x)exp{ω(yiβ0β1xi)2}
are acceptable since the factor f0(y|x) does not depend on the parameter (β0,β1). There is therefore an infinity of such distributions.

Another setting where both estimators coincide is when the data comes from a spherically symmetric distribution, namely when the (vector) data y has conditional density

h(||yXβ||)
with h() a decreasing function. (In this case the OLS is still available although the assumption of the independence of the ϵi's only holds in the Normal case.)
Xi'an
источник
1
This does not look correct to me. If you use a different spherically symmetric distribution, wouldn't that lead to minimisation of a different function of the norm than the square (thus not being least-squares estimation)?
Reinstate Monica
1

I didn't know about this question until @Xi'an just updated with an answer. There is a more generic solution. Exponential family distributions with some parameters fixed yield to Bregman divergences. For such distributions mean is the minimizer. OLS minimizer is also the mean. Therefore for all such distributions they should coincide when the linear functional is linked to the mean parameter.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6958&rep=rep1&type=pdf

enter image description here

Cagdas Ozgenc
источник