Почему методы регрессии методом наименьших квадратов и максимального правдоподобия не эквивалентны, когда ошибки обычно не распределяются?

11

Название говорит обо всем. Я понимаю, что наименьшие квадраты и максимальное правдоподобие дадут одинаковый результат для коэффициентов регрессии, если ошибки модели будут нормально распределены. Но что произойдет, если ошибки не распределяются нормально? Почему два метода больше не эквивалентны?

regression normal-distribution maximum-likelihood least-squares error Shuklaswag
источник

Вы имеете в виду (а) использование MLE, когда предположение о нормальности не выполняется, или (б) использование негауссовой функции правдоподобия?

Тим

(а), когда предположение о нормальности не выполняется

Shuklaswag

Даже если предположение не выполняется (т.е. наблюдаемые значения не распределены по Гауссу) ... если вы вычисляете MLE с использованием функции правдоподобия Гаусса, тогда вы делаете то же самое, что и оптимизация по методу наименьших квадратов. Методы оптимизации математически эквивалентны и не зависят от того, было ли предположение о нормальности верным или нет.

Секст Эмпирик

Даже при нормальных распределениях наименьших квадратов накладывается фиксированная дисперсия.

CodesInChaos

См. Также этот связанный вопрос: stats.stackexchange.com/questions/173621/…

kjetil b halvorsen

16

Короткий ответ

Плотность вероятности многомерной гауссовской распределенной переменной со средним значением связана с квадратом евклидова расстояние между средним и переменной ( ) или, другими словами, сумма квадратов. $x=(x_1, x_2,...,x_n)$ $\mu=(\mu_1,\mu_2,...,\mu_n)$ $\vert \mu-x \vert_2^2$

Длинный ответ

Если вы умножите несколько гауссовых распределений для ваших ошибок, где вы предполагаете равные отклонения, то вы получите сумму квадратов. $n$

\begin{array}{cl} L (μ_{j}, x_{i j}) = P (x_{i j} | μ_{j}) & = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e x p [- \frac{(x_{i j} - μ_{i})^{2}}{2 σ^{2}}] \\ = {(\frac{1}{\sqrt{2 π σ^{2}}})}^{n} e x p [- \frac{\sum_{i = 1}^{n} (x_{i j} - μ_{i})^{2}}{2 σ^{2}}] \end{array}

$\begin{array} \mathcal{L(\mu_j,x_{ij})} = P(x_{ij} \vert \mu_j) & =\prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} exp\left[-\frac{(x_{ij}-\mu_i)^2}{2\sigma^2}\right] \\ &= \left(\frac{1}{\sqrt{2 \pi \sigma^2}} \right)^n exp \left[ -\frac{\sum_{i=1}^n(x_{ij}-\mu_i)^2}{2\sigma^2}\right] \end{array}$

или в удобной логарифмической форме:

\log (L (μ_{j}, x_{i j})) = n \log (\frac{1}{\sqrt{2 π σ^{2}}}) - \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i j} - μ_{j})^{2}

$\log\left(\mathcal{L(\mu_j,x_{ij})} \right) = n \log \left( \frac{1}{\sqrt{2 \pi \sigma^2}} \right) -\frac{1}{2\sigma^2} \sum_{i=1}^n(x_{ij}-\mu_j)^2$

Поэтому оптимизация для минимизации суммы квадратов равна максимизации (логарифмической) вероятности (т. Е. Произведение нескольких гауссовских распределений или многомерного гауссовского распределения). $\mu$

Именно этот вложенный квадрат разности внутри экспоненциальной структуры , которого другие распределения не имеют. $(\mu-x)$ $exp\left[ (x_i-\mu)^2 \right]$

Сравните, например, со случаем для распределений Пуассона

\log (L) = \log (\prod \frac{μ_{j}^{x_{i j}}}{x_{i j}!} e x p [- μ_{j}]) = - \sum μ_{j} - \sum l o g (x_{i j}!) + \sum l o g (μ_{j}) x_{i j}

$\log(\mathcal{L}) = \log \left( \prod\frac{\mu_j^{x_{ij}}}{x_{ij}!} exp \left[ -\mu_j \right] \right) = -\sum \mu_j -\sum log(x_{ij}!) + \sum log(\mu_j) x_{ij}$

который имеет максимум, когда следующее минимизировано:

\sum μ_{j} - l o g (μ_{j}) x_{i j}

$\sum \mu_j -log(\mu_j) x_{ij}$

который другой зверь.

Кроме того (история)

История нормального распределения (игнорирование перехода deMoivre к этому распределению как приближения для биномиального распределения) фактически является обнаружением распределения, которое делает MLE соответствующим методу наименьших квадратов (а не методом наименьших квадратов, являющимся методом который может выразить MLE нормального распределения, сначала появился метод наименьших квадратов, затем - распределение Гаусса)

Обратите внимание, что Гаусс, соединяя «метод максимального правдоподобия» с «методом наименьших квадратов», придумал «гауссово распределение», , как единственное распределение ошибок, которое приводит нас к сделать эту связь между двумя методами. $e^{-x^2}$

Из перевода Чарльза Генри Дэвиса (Теория движения небесных тел, движущихся вокруг Солнца в конических сечениях. Перевод Гаусса "Theoria motus", с приложением) ...

Гаусс определяет:

Соответственно, вероятность присвоения каждой ошибке будет выражаться функцией которую мы будем обозначать . $\Delta$ $\Delta$ $\psi \Delta$

^{(Курсив сделан мной)}

И продолжает ( в разделе 177 с. 258 ):

... откуда легко сделать вывод, что должно быть постоянной величиной. который мы будем обозначать через . Следовательно, у нас есть обозначает основание гиперболического логарифма через и принимает $\frac{\psi^\prime\Delta}{\Delta}$ $k$
$log ψ Δ = \frac{1}{2} k Δ Δ + Constant$ $\text{log } \psi \Delta = \frac{1}{2} k \Delta \Delta + \text{Constant}$ $ψ Δ = x e^{\frac{1}{2} k Δ Δ}$ $\psi \Delta = x e^{\frac{1}{2}k \Delta \Delta}$ $e$ $Constant = \log x$ $\text{Constant} = \log x$

в конечном итоге (после нормализации и реализации ) в $k<0$

$ψ Δ = \frac{h}{\sqrt{π}} e^{- h h Δ Δ}$ $\psi \Delta = \frac{h}{\sqrt{\pi}} e^{-hh\Delta \Delta}$

Автор StackExchangeStrike

Секст Эмпирик
источник

Вы помните, откуда вы получили эти знания? Не могли бы вы добавить источник в свой пост? (Мне трудно найти учебник, который хорошо объясняет это.)

Joooeey

@Joooeey Я добавил название источника для переведенных цитат Гаусса, а также ссылку на один из многих онлайн-источников. Этот оригинальный текст тяжелый, но вы должны встретить более легкие договоры в любом описании истории нормального распространения.

Секст Эмпирик

Функции правдоподобия появляются во многих местах. Если вы ищете источники, где я получил это «знание», то, я думаю, я мог бы сказать статью Пирсона 1900 года о тесте хи-квадрат, где многомерное нормальное распределение рассматривается геометрически. Также Фишер несколько раз использовал геометрические представления (например, в 20-х годах была одна статья об эффективности оценок, где он сравнивает среднеквадратическую ошибку и среднюю абсолютную ошибку и где он говорит о поверхностях в гиперпространстве).

Секст Эмпирик

@Joooeey Я упомянул эту статью Фишера раньше здесь . И в моем ответе здесь используется геометрическая точка зрения для получения свойства t-распределения, которая также относится к Фишеру (я полагаю, статья, в которой он доказывает t-распределение Госсета, или, может быть, немного более поздняя статья).

Секст Эмпирик

5

Потому что MLE выводится из предположения об остаточном распределении.

Обратите внимание, что

{min}_{β} ‖ X β - y ‖^{2}

$\text{min}_\beta~~ \|X \beta - y \|^2$

Не имеет вероятностного значения : просто найдите который минимизирует функцию квадрата потерь. Все детерминировано, и там нет случайных компонентов. $\beta$

Где понятие вероятности и вероятности приходит, мы предполагаем

y = X β + ϵ

$y=X\beta + \epsilon$

Где мы рассматриваем как случайную величину, а обычно распределяется. $y$ $\epsilon$

Хайтау Ду
источник

@ Мэтью Друри, зачем менять матричные обозначения и добавлять знак суммы?

Haitao Du

Я подумал, что это будет ясно, но если вы утверждаете, что утверждение не имеет пробалистического значения, вы не можете использовать выражение с символами, которые лучше всего интерпретировать как случайные величины. Проблема оптимизации, которую вы восстанавливаете, связана с фиксированными данными, я сделал это явным.

Мэтью Друри

5

Наименьшие квадраты и максимальное (гауссовское) соответствие правдоподобия всегда эквивалентны. То есть они минимизируются одним и тем же набором коэффициентов.

Изменение предположения об ошибках изменяет вашу функцию вероятности (максимизация вероятности модели эквивалентна максимизации вероятности ошибки), и, следовательно, функция больше не будет минимизироваться с помощью того же набора коэффициентов.

Таким образом, на практике они одинаковы, но в теории, когда вы максимизируете другую вероятность, вы получите другой ответ, чем наименьшие квадраты

Сэм
источник

"или всегда эквивалентно"?

августа

0

Конкретный пример: предположим, что мы берем простую функцию ошибок p (1) =. 9, p (-9) = .10. Если мы возьмем две точки, то LS просто проведет линию через них. ML, с другой стороны, будет предполагать, что обе точки на одну единицу слишком высоки, и, таким образом, будут проходить линию через точки, сдвинутые на единицу.

Acccumulation
источник

2

Ваш пример неясен; в частности, трудно понять, какую модель вы пытаетесь описать или почему ML даст результат, на который вы претендуете. Не могли бы вы подробнее уточнить этот ответ?

whuber

Модель состоит в том, что y = mx + b + error, где вероятность ошибки составляет 90% и вероятность 10% -9. При любой наблюдаемой точке истинная точка имеет вероятность 90% быть на одну единицу ниже и вероятность 10% быть на девять единиц выше. Таким образом, ML дает, что истинная точка на одну единицу ниже. Что ты не понимаешь по этому поводу?

Аккумуляция

2

Ваш комментарий полезен, но ваш ответ по-прежнему не описывает модель в четкой или понятной форме. Не могли бы вы включить это объяснение в сам ответ? Это хороший пример.

whuber

Почему методы регрессии методом наименьших квадратов и максимального правдоподобия не эквивалентны, когда ошибки обычно не распределяются?

Ответы:

Короткий ответ

Длинный ответ

Кроме того (история)