Название говорит обо всем. Я понимаю, что наименьшие квадраты и максимальное правдоподобие дадут одинаковый результат для коэффициентов регрессии, если ошибки модели будут нормально распределены. Но что произойдет, если ошибки не распределяются нормально? Почему два метода больше не эквивалентны?
11
Ответы:
Короткий ответ
Плотность вероятности многомерной гауссовской распределенной переменной со средним значением связана с квадратом евклидова расстояние между средним и переменной ( ) или, другими словами, сумма квадратов.x=(x1,x2,...,xn) μ=(μ1,μ2,...,μn) |μ−x|22
Длинный ответ
Если вы умножите несколько гауссовых распределений для ваших ошибок, где вы предполагаете равные отклонения, то вы получите сумму квадратов.n
или в удобной логарифмической форме:
Поэтому оптимизация для минимизации суммы квадратов равна максимизации (логарифмической) вероятности (т. Е. Произведение нескольких гауссовских распределений или многомерного гауссовского распределения).μ
Именно этот вложенный квадрат разности внутри экспоненциальной структуры , которого другие распределения не имеют.(μ−x) exp[(xi−μ)2]
Сравните, например, со случаем для распределений Пуассона
который имеет максимум, когда следующее минимизировано:
который другой зверь.
Кроме того (история)
История нормального распределения (игнорирование перехода deMoivre к этому распределению как приближения для биномиального распределения) фактически является обнаружением распределения, которое делает MLE соответствующим методу наименьших квадратов (а не методом наименьших квадратов, являющимся методом который может выразить MLE нормального распределения, сначала появился метод наименьших квадратов, затем - распределение Гаусса)
Обратите внимание, что Гаусс, соединяя «метод максимального правдоподобия» с «методом наименьших квадратов», придумал «гауссово распределение», , как единственное распределение ошибок, которое приводит нас к сделать эту связь между двумя методами.e−x2
Из перевода Чарльза Генри Дэвиса (Теория движения небесных тел, движущихся вокруг Солнца в конических сечениях. Перевод Гаусса "Theoria motus", с приложением) ...
Гаусс определяет:
И продолжает ( в разделе 177 с. 258 ):
в конечном итоге (после нормализации и реализации ) вk<0
Автор StackExchangeStrike
источник
Потому что MLE выводится из предположения об остаточном распределении.
Обратите внимание, что
Не имеет вероятностного значения : просто найдите который минимизирует функцию квадрата потерь. Все детерминировано, и там нет случайных компонентов.β
Где понятие вероятности и вероятности приходит, мы предполагаем
Где мы рассматриваем как случайную величину, а обычно распределяется.ϵy ϵ
источник
Наименьшие квадраты и максимальное (гауссовское) соответствие правдоподобия всегда эквивалентны. То есть они минимизируются одним и тем же набором коэффициентов.
Изменение предположения об ошибках изменяет вашу функцию вероятности (максимизация вероятности модели эквивалентна максимизации вероятности ошибки), и, следовательно, функция больше не будет минимизироваться с помощью того же набора коэффициентов.
Таким образом, на практике они одинаковы, но в теории, когда вы максимизируете другую вероятность, вы получите другой ответ, чем наименьшие квадраты
источник
Конкретный пример: предположим, что мы берем простую функцию ошибок p (1) =. 9, p (-9) = .10. Если мы возьмем две точки, то LS просто проведет линию через них. ML, с другой стороны, будет предполагать, что обе точки на одну единицу слишком высоки, и, таким образом, будут проходить линию через точки, сдвинутые на единицу.
источник