Связь между MLE и наименьшими квадратами в случае линейной регрессии

9

Хасти и Тибширани упоминают в разделе 4.3.2 своей книги, что в случае линейной регрессии подход наименьших квадратов фактически является частным случаем максимальной вероятности. Как мы можем доказать этот результат?

PS: не жалейте математических деталей.

Прадные Джоши
источник
2
Это не особый случай: они просто идентичны, когда распределение ошибок нормальное.
Zhanxiong

Ответы:

13

Модель линейной регрессии

Y=Xβ+ϵ , гдеϵN(0,Iσ2)

YRn , иXRn×pβRp

Обратите внимание, что наша ошибка модели (остаточная) равна . Наша цель - найти вектор s, который минимизирует квадрат нормы этой ошибки.ϵ=YXββL2

Наименьших квадратов

Учитывая данные где каждый является мерным, мы стремимся найти:(x1,y1),...,(xn,yn)xip

β^LS=argminβ||ϵ||2=argminβ||YXβ||2=argminβi=1n(yixiβ)2

Максимальная вероятность

Используя вышеприведенную модель, мы можем настроить вероятность данных с учетом параметров как:β

L(Y|X,β)=i=1nf(yi|xi,β)

где - это pdf нормального распределения со средним 0 и дисперсией . Подключить его:f(yi|xi,β)σ2

L(Y|X,β)=i=1n12πσ2e(yixiβ)22σ2

Теперь, как правило, когда дело касается вероятностей, математически легче взять журнал перед продолжением (продукты становятся суммами, экспоненты уходят), так что давайте сделаем это.

logL(Y|X,β)=i=1nlog(12πσ2)(yixiβ)22σ2

Поскольку нам нужна оценка максимального правдоподобия, мы хотим найти максимум уравнения, приведенного выше, относительно . Первый член не влияет на нашу оценку , поэтому мы можем его игнорировать:βββ

β^MLE=argmaxβi=1n(yixiβ)22σ2

Обратите внимание, что знаменатель является константой относительно . Наконец, обратите внимание, что перед суммой стоит отрицательный знак. Таким образом, найти максимум отрицательного числа - это все равно, что найти его минимум без отрицательного числа. Другими словами:β

β^MLE=argminβi=1n(yixiβ)2=β^LS

Напомним, что для того, чтобы это работало, мы должны были сделать определенные допущения модели (нормальность слагаемых ошибок, среднее значение 0, постоянная дисперсия). Это делает наименьшие квадраты эквивалентными MLE при определенных условиях. Смотрите здесь и здесь для дальнейшего обсуждения.

Для полноты заметим, что решение можно записать так:

β=(XTX)1XTy
ilanman
источник