Почему квадратная разница так часто используется?

14

Очень часто, когда я исследую новые статистические методы и концепции, я сталкиваюсь с квадратом разницы (или среднеквадратичной ошибкой, или множеством других эпитетов). Как пример, r Пирсона определяется на основе среднего квадрата разности от линии регрессии, в которой лежат точки. Для ANOVA вы смотрите на сумму квадратов и так далее.

Теперь я понимаю, что, возводя в квадрат все, вы гарантируете, что данные с выбросами действительно будут оштрафованы. Однако почему показатель степени используется ровно 2? Почему не 2,1, или е, или пи, или что-то еще? Есть ли какая-то особая причина, почему используется 2 или это просто соглашение? Я подозреваю, что объяснение может иметь какое-то отношение к кривой колокола, но я совершенно уверен.

Speldosa
источник
4
Во-первых, вы неправильно используете термин EXPONENTIAL, который относится к таким вещам, как а не . Во-вторых, взгляните на stats.stackexchange.com/questions/118/…, где эта тема подробно освещена. хaxxa
Расс Лент
@rvl Спасибо, я исключил этот термин из моего вопроса. И спасибо, я проверю этот вопрос!
Спелдоса
3
Одна из веских причин, по которой они приходят, в конечном счете, проистекает из простых формул, которые связывают дисперсии сумм с дисперсиями (и, возможно, ковариациями) компонентов, и аккуратные результаты о разложении квадратов. Если вопрос, на который ссылается @rvl, действительно отвечает на ваш вопрос, рассмотрите возможность закрытия вопроса. Если он не дает полного ответа на ваш вопрос, отредактируйте его, чтобы выделить различия между тем, что вы хотите знать, и тем, что там происходит.
Glen_b
Я думаю, что это другой вопрос, чем другая (популярная) ветка о квадрате. Существует концептуальная разница между квадратом функции потерь (которая, по сути, является ключом к ответу на этот вопрос) и возведением в квадрат для оценки отклонений (что является движущей силой другого потока).
whuber
Проверьте здесь и здесь для подобных проблем.
Тим

Ответы:

16

Теоретический подход к статистике дает глубокое объяснение. В нем говорится, что возведение в квадрат различий является показателем для широкого диапазона функций потерь, которые (всякий раз, когда они могут быть обоснованно приняты) приводят к значительному упрощению возможных статистических процедур, которые необходимо учитывать.

К сожалению, объяснение того, что это значит, и указание, почему это правда, требует много настроек. Запись может быстро стать непонятной. То, что я собираюсь сделать здесь, - это просто набросать основные идеи, не вдаваясь в детали. Для более полной информации см. Ссылки.


Стандартная богатая модель данных утверждает, что они являются реализацией (действительной, векторной) случайной величины , распределение которой известно только как элемент некоторого множества распределений, состояний природы . Статистическая процедура - это функция от принимающая значения в некотором наборе решений , пространстве решений.X F Ω t x DxXFΩtxD

Например, в задаче прогнозирования или классификации будет состоять из объединения "обучающего набора" и "тестового набора данных", и отобразит в набор прогнозируемых значений для тестового набора. Множество всех возможных прогнозируемых значений будет . т х дxtxD

Полное теоретическое обсуждение процедур должно учитывать случайные процедуры . Рандомизированная процедура выбирает из двух или более возможных решений в соответствии с некоторым распределением вероятностей (которое зависит от данных ). Он обобщает интуитивную идею о том, что, когда данные не различают две альтернативы, вы впоследствии «подбрасываете монетку», чтобы выбрать конкретную альтернативу. Многие люди не любят рандомизированные процедуры, возражая против принятия решений таким непредсказуемым образом.x

Отличительной чертой теории принятия решений является использование функции потерь . W Для любого состояния природы и решения потеряd DFΩdD

W(F,d)

представляет собой числовое значение, представляющее, насколько «плохо» было бы принимать решение когда истинное состояние природы равно : небольшие потери - это хорошо, большие потери - это плохо. Например, в ситуации проверки гипотезы имеет два элемента «принять» и «отклонить» (нулевая гипотеза). Функция потерь подчеркивает принятие правильного решения: она установлена ​​на ноль, когда решение является правильным, а в противном случае является некоторой константой . (Это называется « функцией потерь : все плохие решения одинаково плохи, а все хорошие решения одинаково хороши.) В частности, когда в нулевой гипотезе иF D w 0 - 1 Вт ( F ,  принять ) = 0 F W ( F ,  отклонить ) = 0 FdFDw01W(F, accept)=0FW(F, reject)=0F находится в альтернативной гипотезе.

При использовании процедуры потери для данных когда истинное состояние природы равно можно записать как . Это делает потери случайная величина , распределение которого определяется формулой (неизвестность) .x F W ( F , t ( x ) ) W ( F , t ( X ) ) FtxFW(F,t(x))W(F,t(X))F

Ожидаемая потеря процедуры называется ее риском , . Ожидание использует истинное состояние природы , которое поэтому будет явно отображаться как индекс оператора ожидания. Мы будем рассматривать риск как функцию и подчеркнем, что с помощью обозначений:т т F FtrtFF

rt(F)=EF(W(F,t(X))).

Лучшие процедуры имеют меньший риск. Таким образом, сравнение функций риска является основой для выбора хороших статистических процедур. Поскольку изменение масштаба всех функций риска по общей (положительной) константе не изменит никаких сравнений, шкала не имеет значения: мы можем умножить ее на любое положительное значение, которое нам нравится. В частности, при умножении на мы всегда можем взять для функции потерь (оправдывая ее название).W 1 / w w = 1 0 - 1WW1/ww=101

Чтобы продолжить пример проверки гипотезы, который иллюстрирует функцию потерь , эти определения подразумевают, что риск любого в нулевой гипотезе - это вероятность того, что решение будет отклонено, в то время как риск любого в альтернативе вероятность того, что решение "принять". Максимальное значение (по всем в нулевой гипотезе) - это размер теста , в то время как часть функции риска, определенная в альтернативной гипотезе, является дополнением к мощности теста ( ). В этом мы видим, как совокупность классической (частой) теории проверки гипотез сводится к определенному способу сравнения функций риска для особого вида потерь.F F F мощность t ( F ) = 1 - r t ( F )01FFFpowert(F)=1rt(F)

Кстати, все представленное до сих пор прекрасно совместимо со всеми основными статистическими данными, включая байесовскую парадигму. Кроме того, байесовский анализ вводит «предыдущее» распределение вероятностей по и использует его для упрощения сравнения функций риска: потенциально сложную функцию можно заменить ее ожидаемым значением относительно предыдущего распределения. Таким образом, все процедуры характеризуются одним числом ; байесовская процедура (которая обычно уникальна) минимизирует . Функция потерь по-прежнему играет важную роль в вычислении .г т т т т т т т тΩrttrtrtrt

Существует некоторое (неизбежное) противоречие вокруг использования функций потерь. Как выбрать ? Он по сути уникален для проверки гипотез, но в большинстве других статистических условий возможны многие варианты. Они отражают ценности лица, принимающего решения. Например, если данные являются физиологическими измерениями медицинского пациента, а решения «лечить» или «не лечить», врач должен учитывать - и взвешивать - последствия любого действия. То, как будут взвешены последствия, может зависеть от собственных пожеланий пациента, его возраста, качества жизни и многих других вещей. Выбор функции потери может быть чреватым и глубоко личным. Обычно это не следует оставлять статистике!W

Тогда нам хотелось бы знать одну вещь: как изменится выбор наилучшей процедуры при изменении потери? Оказывается, что во многих распространенных практических ситуациях можно допустить определенное количество изменений, не меняя, какая процедура является наилучшей. Эти ситуации характеризуются следующими условиями:

  • Пространство решений является выпуклым множеством (часто интервалом чисел). Это означает, что любое значение, лежащее между любыми двумя решениями, также является действительным решением.

  • Потеря равна нулю, когда принимается наилучшее возможное решение, и увеличивается в ином случае (чтобы отразить расхождения между принятым решением и наилучшим, которое можно было бы сделать для истинного, но неизвестного, состояния природы).

  • Потеря является дифференцируемой функцией решения (по крайней мере, локально вблизи наилучшего решения). Это означает, что оно непрерывно - оно не скачет так, как потери , - но также подразумевает, что оно изменяется относительно мало, когда решение близко к лучшему.01

Когда эти условия выполняются, некоторые сложности, связанные со сравнением функций риска, исчезают. Дифференцируемость и выпуклость позволяют нам применить неравенство Дженсена, чтобы показать, чтоW

(1) Нам не нужно рассматривать рандомизированные процедуры [Леманн, следствие 6.2].

(2) Если считается, что одна процедура имеет наилучший риск для одного такого , она может быть улучшена до процедуры которая зависит только от достаточной статистики и имеет по крайней мере такую ​​же хорошую функцию риска для всех таких [Kiefer, p. 151].W t WtWt W

Например, предположим, что - это набор нормальных распределений со средним (и единичной дисперсией). Это идентифицирует с набором всех действительных чисел, поэтому (злоупотребляя нотацией) я также буду использовать « » для идентификации распределения в со средним . Пусть будет iid-образцом размера из одного из этих распределений. Предположим, цель состоит в том, чтобы оценить . Это идентифицирует пространство решений со всеми возможными значениями (любое действительное число). Позволяя обозначить произвольное решение, потеря является функциейц Ом ц Ом ц Х п ц D ц цΩμΩμΩμXnμDμμ^

W(μ,μ^)0

с тогда и только тогда, когда . Предыдущие предположения подразумевают (через теорему Тейлора), чтоW(μ,μ^)=0μ=μ^

W(μ,μ^)=w2(μ^μ)2+o(μ^μ)2

для некоторого постоянного положительного числа . (Обозначение little-o « » означает любую функцию которой предельное значение равно при ). Как отмечалось ранее, мы можем изменять масштаб сделать . Для этого семейства среднее значение , написанное , является достаточной статистикой. Предыдущий результат (цитируемый Кифером) говорит о любой оценке , которая может быть некоторой произвольной функцией от переменных которая подходит для одного такогоw2o(y)pff(y)/yp0y0Ww2=1ΩXX¯μn(x1,,xn)W, Могут быть преобразованы в оценки в зависимости только от , который является , по крайней мере , как хорошо для всех таких .x¯W

То, что было достигнуто в этом примере, типично: чрезвычайно сложный набор возможных процедур, который первоначально состоял из возможно рандомизированных функций переменных, был сведен к гораздо более простому набору процедур, состоящему из нерандомизированных функций одной переменной ( или, по крайней мере, меньшее количество переменных в случаях, когда достаточная статистика является многомерной). И это можно сделать, не беспокоясь о том, что такое функция потерь для лица, принимающего решения, при условии, что она выпуклая и дифференцируемая.n

Какова самая простая функция потери? Тот, который игнорирует остаточный член, конечно, делая его чисто квадратичной функцией. Другие функции потерь в этом же классе включают степеникоторые больше (такие как и упомянутые в вопросе), и многие другие.z=|μ^μ|22.1,e,πexp(z)1z

фигура

Синяя (верхняя) кривая отображает а красная (нижняя) кривая отображает . Поскольку синяя кривая также имеет минимум в , является дифференцируемой и выпуклой, многие из приятных свойств статистических процедур, которыми обладает квадратичная потеря (красная кривая), будут также применяться к функции синей потериz 2 02(exp(|z|)1|z|)z20 (даже если глобально экспоненциальная функция ведет себя иначе, чем квадратичная функция).

Эти результаты (хотя и явно ограниченные навязанными условиями) помогают объяснить, почему квадратичные потери являются повсеместными в статистической теории и практике: в ограниченной степени это аналитически удобный прокси для любой выпуклой дифференцируемой функции потерь.


Квадратичная потеря ни в коем случае не является единственной или даже лучшей потерей для рассмотрения. Действительно, Lehman пишет, что

Выпуклые функции потерь, как замечено, привели к ряду упрощений проблем оценки. Однако можно задаться вопросом, могут ли такие функции потерь быть реалистичными. Если представляет собой не просто меру неточности, а реальную (например, финансовую) потерю, можно утверждать, что все такие потери ограничены: как только вы потеряли все, вы больше не можете проиграть. ...W(F,d)

... [F] растущие функции потерь приводят к оценкам, которые, как правило, чувствительны к предположениям, сделанным относительно [поведения] хвоста [предполагаемого распределения], и эти предположения, как правило, основаны на небольшой информации и, следовательно, не очень надежный.

Оказывается, что оценки, произведенные квадратичной потерей ошибок, часто являются неудобно чувствительными в этом отношении.

[Lehman, раздел 1.6; с некоторыми изменениями обозначений.]

Рассмотрение альтернативных потерь открывает богатый набор возможностей: квантильная регрессия, M-оценки, надежные статистические данные и многое другое могут быть сформулированы таким теоретическим способом и обоснованы с помощью альтернативных функций потерь. Простой пример см. В разделе « Процентные потери» .


Ссылки

Джек Карл Кифер, Введение в статистический вывод. Springer-Verlag 1987.

Е. Л. Леманн, Теория точечного оценивания . Wiley 1983.

Whuber
источник
0

Геометрические свойства для этой метрики расстояния таковы, что ее будет легко использовать.

И, конечно, легче математика, если у вас есть аналитическое решение для большинства задач.

Аналитик
источник
2
Может быть, вы могли бы уточнить немного больше?
Тим
@ Тим, мне в голову пришли неравенство треугольников и математические свойства квадратичных форм ...
Аналитик
Неравенство треугольника существует для каждой метрики расстояния. Особенностью евклидова расстояния / 2 нормы / квадрата / MSE является большой набор преобразований, которые его сохраняют (все ортогональные матрицы).
Федерико Полони,