Когда мы проводим линейную регрессию для подбора группы точек данных , классический подход минимизирует квадратичную ошибку. Я уже давно озадачен вопросом, будет ли минимизация квадратичной ошибки таким же результатом, как минимизация абсолютной ошибки ? Если нет, то почему минимизировать квадрат ошибки лучше? Есть ли какая-либо причина, кроме «целевая функция дифференцируема»?
Квадратная ошибка также широко используется для оценки производительности модели, но абсолютная ошибка менее популярна. Почему квадратичная ошибка используется чаще, чем абсолютная ошибка? Если брать производные не требуется, вычисление абсолютной ошибки так же просто, как вычисление квадратичной ошибки, тогда почему квадратичная ошибка так распространена ? Есть ли какое-то уникальное преимущество, которое может объяснить его распространенность?
Спасибо.
источник
Ответы:
Минимизация квадратичных ошибок (MSE) определенно не то же самое, что минимизация абсолютных отклонений (MAD) ошибок. MSE обеспечивает средний ответ обусловленный х , в то время как MAD обеспечивает средний ответ у, обусловленный х .Y Икс Y Икс
Исторически Лаплас первоначально рассматривал максимальную наблюдаемую ошибку как меру правильности модели. Вскоре он перешел к рассмотрению MAD вместо. Из-за его неспособности точно решить обе ситуации, он вскоре рассмотрел дифференциальную MSE. Сам и Гаусс (по-видимому, одновременно) вывели нормальные уравнения, решение этой задачи в замкнутой форме. В настоящее время решение MAD относительно легко с помощью линейного программирования. Однако, как известно, линейное программирование не имеет решения в замкнутой форме.
С точки зрения оптимизации, оба соответствуют выпуклым функциям. Тем не менее, MSE является дифференцируемой, что позволяет использовать градиентные методы, гораздо более эффективные, чем их недифференцируемая аналогия. MAD не дифференцируется при .х = 0
Еще одна теоретическая причина заключается в том, что в байесовских условиях при допущении о единообразных априорах параметров модели MSE выдает нормальные распределенные ошибки, что было принято в качестве доказательства правильности метода. Теоретикам нравится нормальное распределение, потому что они считают, что это эмпирический факт, в то время как экспериментам нравится это, потому что они считают это теоретическим результатом.
Последняя причина того, почему MSE, возможно, получила широкое признание, состоит в том, что она основана на евклидовом расстоянии (фактически это решение проблемы проекции на евклидовом банаховом пространстве), что является чрезвычайно интуитивным, учитывая нашу геометрическую реальность.
источник
В качестве альтернативного объяснения рассмотрим следующую интуицию:
При минимизации ошибки мы должны решить, как наказать эти ошибки. Действительно, самый простой подход к штрафу за ошибки будет использовать функцию
linearly proportional
штрафа. При такой функции каждому отклонению от среднего присваивается пропорциональная соответствующая ошибка. Два раза дальше от среднего будет поэтому в результате два раза штрафа.Более распространенный подход заключается в рассмотрении
squared proportional
взаимосвязи между отклонениями от среднего значения и соответствующим штрафом. Это будет гарантировать, что чем дальше вы находитесь от среднего значения, тем больше вы будете оштрафованы. Используя эту штрафную функцию, выбросы (далеко от среднего значения) считаются пропорционально более информативными, чем наблюдения вблизи среднего значения.Чтобы визуализировать это, вы можете просто нарисовать штрафные функции:
Теперь, особенно при рассмотрении оценки регрессий (например, OLS), различные штрафные функции будут давать разные результаты. Используя
linearly proportional
функцию штрафа, регрессия присваивает выбросам меньший вес, чем при использованииsquared proportional
функции штрафа. Поэтому известно, что медианное абсолютное отклонение (MAD) является более надежной оценкой. В общем, это тот случай, когда надежная оценка хорошо подходит для большинства точек данных, но «игнорирует» выбросы. Для сравнения, наименьшие квадраты больше притягиваются к выбросам. Вот визуализация для сравнения:Теперь, несмотря на то, что OLS является в значительной степени стандартом, наверняка также используются различные штрафные функции. В качестве примера вы можете взглянуть на функцию робастфита Matlab, которая позволяет вам выбрать другую функцию штрафа (также называемую «весом») для вашей регрессии. Функции штрафа включают в себя Эндрюса, Бисквера, Коши, Фэйр, Хьюбер, Логистик, Олс, Талвар и Вельш. Их соответствующие выражения также можно найти на веб-сайте.
Я надеюсь, что это поможет вам получить немного больше интуиции для штрафных функций :)
Обновить
Если у вас есть Matlab, я могу порекомендовать поиграть с robustdemo от Matlab , который был создан специально для сравнения обычных наименьших квадратов с устойчивой регрессией:
Демо-версия позволяет перетаскивать отдельные точки и сразу же видеть влияние как на обычные наименьшие квадраты, так и на устойчивую регрессию (что идеально подходит для учебных целей!).
источник
Как объяснил другой ответ, минимизация квадратичной ошибки - это не то же самое, что минимизация абсолютной ошибки.
Причиной минимизации квадратичной ошибки является то, что она лучше предотвращает большие ошибки.
Скажем, отдел оплаты труда вашего сотрудника случайно платит каждому из десяти сотрудников на 50 долларов меньше, чем требуется. Это абсолютная ошибка в 500 долларов. Это также абсолютная ошибка в 500 долларов, если департамент платит только одному сотруднику на 500 долларов меньше. Но с точки зрения квадратичной ошибки, это 25000 против 250000.
Не всегда лучше использовать квадратную ошибку. Если у вас есть набор данных с экстремальным выбросом из-за ошибки сбора данных, минимизация квадратичной ошибки приведет к гораздо большему подгонке к экстремальному выбросу, чем минимизация абсолютной ошибки. При этом, как правило, лучше использовать квадратную ошибку.
источник
Теоретически вы можете использовать любую функцию потерь. Функции абсолютных и квадратичных потерь оказываются самыми популярными и интуитивно понятными функциями потерь. Согласно этой записи в Википедии ,
Как также объясняется в записи в википедии, выбор функций потерь зависит от того, как вы оцениваете отклонения от целевого объекта. Если все отклонения одинаково плохи для вас, независимо от их знака, вы можете использовать функцию абсолютных потерь. Если отклонения становятся для вас хуже, чем дальше вы находитесь от оптимума, и вас не волнует, будет ли отклонение положительным или отрицательным, тогда функция квадрата потерь - ваш самый простой выбор. Но если ни одно из приведенных выше определений потерь не подходит под вашу проблему, потому что, например, небольшие отклонения хуже для вас, чем большие отклонения, тогда вы можете выбрать другую функцию потерь и попытаться решить проблему минимизации. Однако статистические свойства вашего решения могут быть трудно оценить.
источник
Короткие ответы
источник