Смещение к натуральным числам в случае наименьших квадратов

14

Почему мы стремимся минимизировать, x^2а не минимизировать |x|^1.95или |x|^2.05. Есть ли причины, по которым число должно быть ровно двумя, или это просто соглашение, которое имеет преимущество в упрощении математики?

Кристиан
источник

Ответы:

5

Этот вопрос довольно старый, но на самом деле у меня есть ответ, которого здесь нет, и тот, который дает убедительную причину, по которой (при некоторых разумных допущениях) квадратная ошибка верна, в то время как любая другая сила неверна.

Скажем , у нас есть некоторые данные и хотим найти линейную (или любую другую) функцию f, которая лучше всего предсказывает данные, в том смысле, что плотность вероятности p f ( D ) для наблюдения этих данных должна быть максимальной по отношению к f (это называетсяDзнак равно(Икс1,Y1),(Икс2,Y2),,,,,(ИксN,YN)епе(D)еоценка максимального правдоподобия ). Если предположить, что данные задаются как плюс нормально распределенный член ошибки со стандартным отклонением σ , то p f ( D ) = n i = 1 1еσ Это эквивалентно 1

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
Таким образоммаксимизациирп(D)осуществляется путем минимизацииЕ п я = 1 (уя-е(хя))2, то есть, сумма квадратов членов ошибки.
1σN(2π)N/2е-12σ2Σязнак равно1N(Yя-е(Икся))2,
пе(D)Σязнак равно1N(Yя-е(Икся))2

источник
Это кажется круговым, почему вы должны принять нормально распределенный термин ошибки?
Джо
@Joe Вы не должны всегда, но если единственное, что вы знаете о члене ошибки, это то, что оно имеет среднее значение 0 и конечное ожидаемое абсолютное значение, то это предположение о максимальной энтропии, поэтому оно может заменить любое неизвестное Функция ошибки у вас на самом деле. Если у вас есть дополнительная информация о распределении ошибок, то, я полагаю, вы могли бы использовать ее и найти более точную оценку максимального правдоподобия.
«если единственное, что вы знаете о члене ошибки, это то, что он имеет среднее значение 0 и конечное ожидаемое абсолютное значение, то это предположение о максимальной энтропии» - каждый вывод максимальных распределений энтропии, который я видел, выводит распределение Лапласа как распределение максимума для (известного) конечного ожидаемого абсолютного значения, тогда как гауссовский является максимумом для (известного) конечного ожидаемого квадрата абсолютного значения, см. в качестве одного примера stats.stackexchange.com/questions/82410/… у вас есть цитаты, которые не согласны ?
Джо
Вы знаете, я не Я предполагаю, что ты прав. (Хотя я не могу понять, как редактировать мой комментарий по какой-то причине)
14

Нет причины, по которой вы не могли бы попытаться минимизировать другие нормы, кроме x ^ 2, например, были написаны целые книги по квантильной регрессии, которая более или менее минимизирует | x | если вы работаете с медианой. Обычно это сложнее сделать и, в зависимости от модели ошибок, может не дать хороших оценок (в зависимости от того, означает ли это низкую дисперсию или несмещенную или низкую оценку MSE в контексте).

Что касается того, почему мы предпочитаем целочисленные моменты по сравнению с действительными числами, главная причина, вероятно, заключается в том, что хотя целочисленные степени действительных чисел всегда приводят к действительным числам, нецелые степени отрицательных действительных чисел создают комплексные числа, что требует использования абсолютное значение. Другими словами, в то время как 3-й момент вещественной случайной величины является действительным, 3-й момент не обязательно является действительным и поэтому вызывает проблемы интерпретации.

Кроме этого ...

  1. Аналитические выражения для целочисленных моментов случайных величин, как правило, гораздо легче найти, чем действительные значения, будь то путем генерации функций или какого-либо другого метода. Таким образом, методы их минимизации проще написать.
  2. Использование целочисленных моментов приводит к выражениям, которые более податливы, чем реальные значения.
  3. Я не могу придумать убедительную причину, по которой (например) 1,95-й момент абсолютного значения X обеспечит более подходящие свойства, чем (например) 2-й момент X, хотя это может быть интересно исследовать
  4. Специфично для нормы L2 (или квадратичной ошибки), она может быть записана с помощью точечных произведений, что может привести к значительному улучшению скорости вычислений. Это также единственное пространство Lp, которое является пространством Гильберта, и это хорошая возможность.
Богатый
источник
8

Мы стараемся минимизировать дисперсию, оставленную в дескрипторах. Почему дисперсия? Прочитайте этот вопрос ; это также сочетается с (в основном молчаливым) предположением о том, что ошибки обычно распространяются.

Расширение:
два дополнительных аргумента:

  1. Для дисперсий у нас есть этот хороший "закон", что сумма дисперсий равна дисперсии суммы для некоррелированных выборок. Если мы предположим, что ошибка не коррелирует с регистром, минимизация остатка квадратов будет работать напрямую, чтобы максимизировать объясненную дисперсию, что может быть не очень хорошим, но все еще популярным показателем качества.

  2. Если мы предположим нормальность ошибки, оценка ошибки методом наименьших квадратов является максимальной вероятностью ошибки.

Сообщество
источник
1
Ответ в этом другом потоке не объясняет, почему 2 лучше, чем другие значения, которые очень близки к 2, но не являются натуральными числами.
Кристиан
Я думаю, что это так; все же я постараюсь расширить ответ.
Таким образом, если ошибки распределяются не нормально, а, например, в соответствии с другим стабильным распределением Леви, может быть полезно использовать показатель степени, отличный от 2?
Раскольников
Помните, что нормальное распределение является наиболее «осторожным» для известной дисперсии (потому что оно имеет максимальную энтропию среди всех плотностей с фиксированной дисперсией). Это оставляет больше всего, чтобы быть сказанным данными. Или, другими словами, для «больших» наборов данных с одинаковой дисперсией «вы» должны невероятно «стараться» получить дистрибутив, отличающийся от нормального.
вероятностная
8

В обычных наименьших квадратах решение (A'A) ^ (- 1) x = A'b сводит к минимуму потери в квадрате ошибок и является решением с максимальной вероятностью.

Итак, во многом потому, что математика была легкой в ​​этом историческом случае.

Но обычно люди сводят к минимуму множество различных функций потерь , таких как экспоненциальные, логистические, коши, Лапласа, Хьюбера и т. Д. Эти более экзотические функции потерь обычно требуют большого количества вычислительных ресурсов и не имеют решений в закрытой форме (в общем), поэтому они только начинают становиться более популярными сейчас.

Джо
источник
1
+1 за представление идеи потери. (Но не являются ли «экспоненциальные» и т. Д. Распределения , а не функции потерь?) Исторически линейные потери были первым формально разработанным подходом в 1750 году, и для него было доступно простое геометрическое решение. Я полагаю, что Лаплас установил связь между этим и двойным экспоненциальным распределением в публикации 1809 года (для которой MLE минимизирует абсолютную ошибку, а не квадратную ошибку). Таким образом, квадратичные потери не отличаются однозначно критериями наличия MLE и математической простоты.
whuber
Это и функции распределения, и потери в разных контекстах.
Джо
Я слишком быстро нажал клавишу ввода в предыдущем ответе - экспоненциальная потеря широко связана с бустингом (см. Статистический взгляд на повышение Фридмана Хасти и Тибширани), где это потеря, а не распределение, логистическая регрессия отвечает за потерю журнала, а laplace - это распределение, но соответствует потере абсолютного значения - так что по большей части я был очень небрежным, спасибо за указание на это. Но в то время как потеря L1 имеет геометрическое решение, она не является аналитически замкнутой формой, поэтому вряд ли я бы назвал ее решение простым.
Джо
1

Я понимаю, что, поскольку мы пытаемся минимизировать ошибки, нам нужно найти способ не оказаться в ситуации, когда сумма отрицательной разницы в ошибках равна сумме положительной разницы в ошибках, но мы не нашел хорошую подгонку. Мы делаем это путем возведения в квадрат суммы разности ошибок, что означает, что отрицательная и положительная разница в ошибках становятся положительными (-1×-1знак равно1). Если мы поднялиИкс в силу чего-то другого, кроме положительного целого числа, мы бы не решили эту проблему, потому что ошибки не имели бы того же знака, или если бы мы поднялись до степени чего-то, что не является целым числом, мы бы вошли в сложные области. номера.

Ян Тернер
источник