Является ли минимизация квадратичной ошибки эквивалентной минимизации абсолютной ошибки? Почему квадратичная ошибка более популярна, чем последняя?

39

Когда мы проводим линейную регрессию для подбора группы точек данных , классический подход минимизирует квадратичную ошибку. Я уже давно озадачен вопросом, будет ли минимизация квадратичной ошибки таким же результатом, как минимизация абсолютной ошибки ? Если нет, то почему минимизировать квадрат ошибки лучше? Есть ли какая-либо причина, кроме «целевая функция дифференцируема»?y=ax+b(x1,y1),(x2,y2),...,(xn,yn)

Квадратная ошибка также широко используется для оценки производительности модели, но абсолютная ошибка менее популярна. Почему квадратичная ошибка используется чаще, чем абсолютная ошибка? Если брать производные не требуется, вычисление абсолютной ошибки так же просто, как вычисление квадратичной ошибки, тогда почему квадратичная ошибка так распространена ? Есть ли какое-то уникальное преимущество, которое может объяснить его распространенность?

Спасибо.

Тони
источник
За этим всегда стоит какая-то проблема оптимизации, и вы хотите иметь возможность вычислять градиенты, чтобы найти минимум / максимум.
Владислав Довгальец
11
x2<|x|для иесли . Таким образом, квадратичная ошибка штрафует большие ошибки в большей степени, чем абсолютная ошибка, и является более щадящей мелкой ошибкой, чем абсолютная ошибка. Это хорошо согласуется с тем, что многие считают подходящим способом ведения дел. x 2 > | х | | х | > 1Икс(-1,1)Икс2>|Икс||Икс|>1
Дилип Сарвейт

Ответы:

47

Минимизация квадратичных ошибок (MSE) определенно не то же самое, что минимизация абсолютных отклонений (MAD) ошибок. MSE обеспечивает средний ответ обусловленный х , в то время как MAD обеспечивает средний ответ у, обусловленный х .YИксYИкс

Исторически Лаплас первоначально рассматривал максимальную наблюдаемую ошибку как меру правильности модели. Вскоре он перешел к рассмотрению MAD вместо. Из-за его неспособности точно решить обе ситуации, он вскоре рассмотрел дифференциальную MSE. Сам и Гаусс (по-видимому, одновременно) вывели нормальные уравнения, решение этой задачи в замкнутой форме. В настоящее время решение MAD относительно легко с помощью линейного программирования. Однако, как известно, линейное программирование не имеет решения в замкнутой форме.

С точки зрения оптимизации, оба соответствуют выпуклым функциям. Тем не менее, MSE является дифференцируемой, что позволяет использовать градиентные методы, гораздо более эффективные, чем их недифференцируемая аналогия. MAD не дифференцируется при .Иксзнак равно0

Еще одна теоретическая причина заключается в том, что в байесовских условиях при допущении о единообразных априорах параметров модели MSE выдает нормальные распределенные ошибки, что было принято в качестве доказательства правильности метода. Теоретикам нравится нормальное распределение, потому что они считают, что это эмпирический факт, в то время как экспериментам нравится это, потому что они считают это теоретическим результатом.

Последняя причина того, почему MSE, возможно, получила широкое признание, состоит в том, что она основана на евклидовом расстоянии (фактически это решение проблемы проекции на евклидовом банаховом пространстве), что является чрезвычайно интуитивным, учитывая нашу геометрическую реальность.

Asterion
источник
1
(+1) за ссылку на Лапласа!
Сиань
2
«Теоретикам нравится нормальное распределение, потому что они считают, что это эмпирический факт, в то время как экспериментам нравится, потому что они считают это теоретическим результатом». -- Я люблю это. Но не существует ли также прямых физических приложений для гауссовского распределения? И есть также материал о максимальных распределениях энтропии
shadowtalker
8
@ssdecontrol Я думаю, что эпиграмма принадлежит Анри Пуанкаре чуть более ста лет назад. Во всем мире, я не знаю, что это такое, М. Липпманн, автомобильные эксперты с точки зрения математики и математики, не имеет ничего общего с экспериментированием. «Все уверены в этом [что ошибки обычно распределяются], - сказал мне однажды мистер Липпман, поскольку экспериментаторы считают, что это математическая теорема, а математики - экспериментально установленный факт». из Calcul des probabilités (2nd ed., 1912), p. 171
Дилип Сарватэ
1
Вот математический ответ. Если у нас есть матрица данных независимых переменных X и матрица столбцов Y, то если существует матрица b со свойством Xb = Y, мы имеем soln. Обычно мы не можем и хотим, чтобы b было «ближе всего» к точному решению. Как математика, это «легко» решить. Это проекция Y на пространство столбцов X. Понятия проекции и перпендикуляра и т. Д. Зависят от метрики. Обычная евклидова метрика L2 - это то, к чему мы привыкли, и она дает наименьшие квадраты. Минимизирующее свойство mse является подтверждением того, что у нас есть проекция.
Агиненский
1
Я думал, что приоритетное разногласие было между Гауссом и Лежандром, с Лежандром, предшествующим Гауссу в издательстве, но Гауссом, предшествующим Лежандру в неофициальной переписке. Я также (смутно) осознаю, что доказательство Лапласа считается превосходящим. Любая ссылка на них?
PatrickT
31

В качестве альтернативного объяснения рассмотрим следующую интуицию:

При минимизации ошибки мы должны решить, как наказать эти ошибки. Действительно, самый простой подход к штрафу за ошибки будет использовать функцию linearly proportionalштрафа. При такой функции каждому отклонению от среднего присваивается пропорциональная соответствующая ошибка. Два раза дальше от среднего будет поэтому в результате два раза штрафа.

Более распространенный подход заключается в рассмотрении squared proportionalвзаимосвязи между отклонениями от среднего значения и соответствующим штрафом. Это будет гарантировать, что чем дальше вы находитесь от среднего значения, тем больше вы будете оштрафованы. Используя эту штрафную функцию, выбросы (далеко от среднего значения) считаются пропорционально более информативными, чем наблюдения вблизи среднего значения.

Чтобы визуализировать это, вы можете просто нарисовать штрафные функции:

Сравнение штрафных функций MAD ​​и MSE

Теперь, особенно при рассмотрении оценки регрессий (например, OLS), различные штрафные функции будут давать разные результаты. Используя linearly proportionalфункцию штрафа, регрессия присваивает выбросам меньший вес, чем при использовании squared proportionalфункции штрафа. Поэтому известно, что медианное абсолютное отклонение (MAD) является более надежной оценкой. В общем, это тот случай, когда надежная оценка хорошо подходит для большинства точек данных, но «игнорирует» выбросы. Для сравнения, наименьшие квадраты больше притягиваются к выбросам. Вот визуализация для сравнения:

Сравнение OLS с надежной оценкой

Теперь, несмотря на то, что OLS является в значительной степени стандартом, наверняка также используются различные штрафные функции. В качестве примера вы можете взглянуть на функцию робастфита Matlab, которая позволяет вам выбрать другую функцию штрафа (также называемую «весом») для вашей регрессии. Функции штрафа включают в себя Эндрюса, Бисквера, Коши, Фэйр, Хьюбер, Логистик, Олс, Талвар и Вельш. Их соответствующие выражения также можно найти на веб-сайте.

Я надеюсь, что это поможет вам получить немного больше интуиции для штрафных функций :)

Обновить

Если у вас есть Matlab, я могу порекомендовать поиграть с robustdemo от Matlab , который был создан специально для сравнения обычных наименьших квадратов с устойчивой регрессией:

robustdemo

Демо-версия позволяет перетаскивать отдельные точки и сразу же видеть влияние как на обычные наименьшие квадраты, так и на устойчивую регрессию (что идеально подходит для учебных целей!).

Жан-Поль
источник
3

Как объяснил другой ответ, минимизация квадратичной ошибки - это не то же самое, что минимизация абсолютной ошибки.

Причиной минимизации квадратичной ошибки является то, что она лучше предотвращает большие ошибки.

Скажем, отдел оплаты труда вашего сотрудника случайно платит каждому из десяти сотрудников на 50 долларов меньше, чем требуется. Это абсолютная ошибка в 500 долларов. Это также абсолютная ошибка в 500 долларов, если департамент платит только одному сотруднику на 500 долларов меньше. Но с точки зрения квадратичной ошибки, это 25000 против 250000.

Не всегда лучше использовать квадратную ошибку. Если у вас есть набор данных с экстремальным выбросом из-за ошибки сбора данных, минимизация квадратичной ошибки приведет к гораздо большему подгонке к экстремальному выбросу, чем минимизация абсолютной ошибки. При этом, как правило, лучше использовать квадратную ошибку.

Atsby
источник
4
Причиной минимизации квадратичной ошибки является то, что она лучше предотвращает большие ошибки. - тогда почему не в кубиках?
Даниэль Уорвикер
@DanielEarwicker Cubed делает ошибки в неправильном направлении, вычитая. Так что это должна быть абсолютная ошибка в кубе или соблюдение четных степеней. Нет действительно «веской» причины, по которой квадрат используется вместо более высоких степеней (или, действительно, неполиномиальных штрафных функций). Это просто рассчитать, легко минимизировать, и делает свою работу.
Атсби
1
Конечно, я должен был сказать, что даже более высокая сила! :)
Даниэль Уорвикер
Это не имеет голосов (на данный момент), но разве это не говорит так же, как ответ, который (в настоящее время) имеет 15 голосов (т.е. выбросы имеют больший эффект)? Разве это не получает голоса, потому что это неправильно, или потому что это пропускает некоторую ключевую информацию? Или потому что у него нет симпатичных графиков? ;-)
Даррен Кук
@DarrenCook Я подозреваю, что «современный» подход к статистике предпочитает MAD, а не OLS, и предположение, что квадратичная ошибка «обычно» лучше, принесла мне несколько отрицательных голосов.
Атсби
3

Теоретически вы можете использовать любую функцию потерь. Функции абсолютных и квадратичных потерь оказываются самыми популярными и интуитивно понятными функциями потерь. Согласно этой записи в Википедии ,

Типичным примером является оценка «местоположения». При типичных статистических допущениях среднее или среднее значение является статистикой для оценки местоположения, которая минимизирует ожидаемые потери в соответствии с функцией потери в квадрате ошибок, в то время как медиана является оценкой, которая минимизирует ожидаемые потери в соответствии с функцией потерь в абсолютной разности. Тем не менее, другие оценки были бы оптимальными при других, менее распространенных обстоятельствах.

Как также объясняется в записи в википедии, выбор функций потерь зависит от того, как вы оцениваете отклонения от целевого объекта. Если все отклонения одинаково плохи для вас, независимо от их знака, вы можете использовать функцию абсолютных потерь. Если отклонения становятся для вас хуже, чем дальше вы находитесь от оптимума, и вас не волнует, будет ли отклонение положительным или отрицательным, тогда функция квадрата потерь - ваш самый простой выбор. Но если ни одно из приведенных выше определений потерь не подходит под вашу проблему, потому что, например, небольшие отклонения хуже для вас, чем большие отклонения, тогда вы можете выбрать другую функцию потерь и попытаться решить проблему минимизации. Однако статистические свойства вашего решения могут быть трудно оценить.

Кристьян
источник
Небольшая деталь: «Если все отклонения одинаково плохи для вас, независимо от их знака ...»: функция MAD штрафует ошибки линейно-пропорционально. Следовательно, ошибки не «одинаково плохие», а «пропорционально плохие», так как в два раза ошибка получает в два раза больше штрафа.
Жан-Поль
@ Жан-Поль: Вы правы. Я так и имел в виду. Что я хотел сказать «одинаково плохо», так это то, что градиент MAD постоянен, а градиент для MSE растет линейно с ошибкой. Следовательно, если разница между двумя ошибками постоянна независимо от того, насколько далеко вы находитесь от оптимума, то же самое не относится к MSE. Надеюсь, это делает более понятным то, что я хочу сказать.
Кристян
-1

Короткие ответы

  1. Нет
  2. среднее имеет более интересные статистические свойства, чем медиана
ℕʘʘḆḽḘ
источник
10
Было бы здорово, если бы вы могли квалифицировать «более интересные статистические свойства».
Момо