Почему квадратная разница так часто используется?

Теоретический подход к статистике дает глубокое объяснение. В нем говорится, что возведение в квадрат различий является показателем для широкого диапазона функций потерь, которые (всякий раз, когда они могут быть обоснованно приняты) приводят к значительному упрощению возможных статистических процедур, которые необходимо учитывать.

К сожалению, объяснение того, что это значит, и указание, почему это правда, требует много настроек. Запись может быстро стать непонятной. То, что я собираюсь сделать здесь, - это просто набросать основные идеи, не вдаваясь в детали. Для более полной информации см. Ссылки.

Стандартная богатая модель данных утверждает, что они являются реализацией (действительной, векторной) случайной величины , распределение которой известно только как элемент некоторого множества распределений, состояний природы . Статистическая процедура - это функция от принимающая значения в некотором наборе решений , пространстве решений. $\mathbf x$ $\mathbf X$ $F$ $\Omega$ $t$ $\mathbf x$ $D$

Например, в задаче прогнозирования или классификации будет состоять из объединения "обучающего набора" и "тестового набора данных", и отобразит в набор прогнозируемых значений для тестового набора. Множество всех возможных прогнозируемых значений будет . $\mathbf x$ $t$ $\mathbf x$ $D$

Полное теоретическое обсуждение процедур должно учитывать случайные процедуры . Рандомизированная процедура выбирает из двух или более возможных решений в соответствии с некоторым распределением вероятностей (которое зависит от данных ). Он обобщает интуитивную идею о том, что, когда данные не различают две альтернативы, вы впоследствии «подбрасываете монетку», чтобы выбрать конкретную альтернативу. Многие люди не любят рандомизированные процедуры, возражая против принятия решений таким непредсказуемым образом. $\mathbf x$

Отличительной чертой теории принятия решений является использование функции потерь . $W$ Для любого состояния природы и решения потеря $F \in \Omega$ $d \in D$

W (F, d)

$W(F,d)$

представляет собой числовое значение, представляющее, насколько «плохо» было бы принимать решение когда истинное состояние природы равно : небольшие потери - это хорошо, большие потери - это плохо. Например, в ситуации проверки гипотезы имеет два элемента «принять» и «отклонить» (нулевая гипотеза). Функция потерь подчеркивает принятие правильного решения: она установлена на ноль, когда решение является правильным, а в противном случае является некоторой константой . (Это называется « функцией потерь : все плохие решения одинаково плохи, а все хорошие решения одинаково хороши.) В частности, когда в нулевой гипотезе и $d$ $F$ $D$ $w$ $0-1$ $W(F,\text{ accept})=0$ $F$ $W(F,\text{ reject})=0$ $F$ находится в альтернативной гипотезе.

При использовании процедуры потери для данных когда истинное состояние природы равно можно записать как . Это делает потери случайная величина , распределение которого определяется формулой (неизвестность) . $t$ $x$ $F$ $W(F, t(x))$ $W(F, t(X))$ $F$

Ожидаемая потеря процедуры называется ее риском , . Ожидание использует истинное состояние природы , которое поэтому будет явно отображаться как индекс оператора ожидания. Мы будем рассматривать риск как функцию и подчеркнем, что с помощью обозначений: $t$ $r_t$ $F$ $F$

r_{t} (F) = E_{F} (W (F, t (X))) .

$r_t(F) = \mathbb{E}_F(W(F, t(X))).$

Лучшие процедуры имеют меньший риск. Таким образом, сравнение функций риска является основой для выбора хороших статистических процедур. Поскольку изменение масштаба всех функций риска по общей (положительной) константе не изменит никаких сравнений, шкала не имеет значения: мы можем умножить ее на любое положительное значение, которое нам нравится. В частности, при умножении на мы всегда можем взять для функции потерь (оправдывая ее название). $W$ $W$ $1/w$ $w=1$ $0-1$

Чтобы продолжить пример проверки гипотезы, который иллюстрирует функцию потерь , эти определения подразумевают, что риск любого в нулевой гипотезе - это вероятность того, что решение будет отклонено, в то время как риск любого в альтернативе вероятность того, что решение "принять". Максимальное значение (по всем в нулевой гипотезе) - это размер теста , в то время как часть функции риска, определенная в альтернативной гипотезе, является дополнением к мощности теста ( ). В этом мы видим, как совокупность классической (частой) теории проверки гипотез сводится к определенному способу сравнения функций риска для особого вида потерь. $0-1$ $F$ $F$ $F$ $\text{power}_t(F) = 1 - r_t(F)$

Кстати, все представленное до сих пор прекрасно совместимо со всеми основными статистическими данными, включая байесовскую парадигму. Кроме того, байесовский анализ вводит «предыдущее» распределение вероятностей по и использует его для упрощения сравнения функций риска: потенциально сложную функцию можно заменить ее ожидаемым значением относительно предыдущего распределения. Таким образом, все процедуры характеризуются одним числом ; байесовская процедура (которая обычно уникальна) минимизирует . Функция потерь по-прежнему играет важную роль в вычислении . $\Omega$ $r_t$ $t$ $r_t$ $r_t$ $r_t$

Существует некоторое (неизбежное) противоречие вокруг использования функций потерь. Как выбрать ? Он по сути уникален для проверки гипотез, но в большинстве других статистических условий возможны многие варианты. Они отражают ценности лица, принимающего решения. Например, если данные являются физиологическими измерениями медицинского пациента, а решения «лечить» или «не лечить», врач должен учитывать - и взвешивать - последствия любого действия. То, как будут взвешены последствия, может зависеть от собственных пожеланий пациента, его возраста, качества жизни и многих других вещей. Выбор функции потери может быть чреватым и глубоко личным. Обычно это не следует оставлять статистике! $W$

Тогда нам хотелось бы знать одну вещь: как изменится выбор наилучшей процедуры при изменении потери? Оказывается, что во многих распространенных практических ситуациях можно допустить определенное количество изменений, не меняя, какая процедура является наилучшей. Эти ситуации характеризуются следующими условиями:

Пространство решений является выпуклым множеством (часто интервалом чисел). Это означает, что любое значение, лежащее между любыми двумя решениями, также является действительным решением.
Потеря равна нулю, когда принимается наилучшее возможное решение, и увеличивается в ином случае (чтобы отразить расхождения между принятым решением и наилучшим, которое можно было бы сделать для истинного, но неизвестного, состояния природы).
Потеря является дифференцируемой функцией решения (по крайней мере, локально вблизи наилучшего решения). Это означает, что оно непрерывно - оно не скачет так, как потери , - но также подразумевает, что оно изменяется относительно мало, когда решение близко к лучшему. $0-1$

Когда эти условия выполняются, некоторые сложности, связанные со сравнением функций риска, исчезают. Дифференцируемость и выпуклость позволяют нам применить неравенство Дженсена, чтобы показать, что $W$

(1) Нам не нужно рассматривать рандомизированные процедуры [Леманн, следствие 6.2].

(2) Если считается, что одна процедура имеет наилучший риск для одного такого , она может быть улучшена до процедуры которая зависит только от достаточной статистики и имеет по крайней мере такую же хорошую функцию риска для всех таких [Kiefer, p. 151]. $t$ $W$ $t^{*}$ $W$

Например, предположим, что - это набор нормальных распределений со средним (и единичной дисперсией). Это идентифицирует с набором всех действительных чисел, поэтому (злоупотребляя нотацией) я также буду использовать « » для идентификации распределения в со средним . Пусть будет iid-образцом размера из одного из этих распределений. Предположим, цель состоит в том, чтобы оценить . Это идентифицирует пространство решений со всеми возможными значениями (любое действительное число). Позволяя обозначить произвольное решение, потеря является функцией $\Omega$ $\mu$ $\Omega$ $\mu$ $\Omega$ $\mu$ $X$ $n$ $\mu$ $D$ $\mu$ $\hat\mu$

W (μ, \hat{μ}) \geq 0

$W(\mu, \hat\mu) \ge 0$

с тогда и только тогда, когда . Предыдущие предположения подразумевают (через теорему Тейлора), что $W(\mu, \hat\mu)=0$ $\mu=\hat\mu$

W (μ, \hat{μ}) = w_{2} (\hat{μ} - μ)^{2} + o (\hat{μ} - μ)^{2}

$W(\mu, \hat\mu) = w_2 (\hat\mu - \mu)^2 + o(\hat\mu - \mu)^2$

для некоторого постоянного положительного числа . (Обозначение little-o « » означает любую функцию которой предельное значение равно при ). Как отмечалось ранее, мы можем изменять масштаб сделать . Для этого семейства среднее значение , написанное , является достаточной статистикой. Предыдущий результат (цитируемый Кифером) говорит о любой оценке , которая может быть некоторой произвольной функцией от переменных которая подходит для одного такого $w_2$ $o(y)^p$ $f$ $f(y) / y^p$ $0$ $y\to 0$ $W$ $w_2=1$ $\Omega$ $X$ $\bar X$ $\mu$ $n$ $(x_1, \ldots, x_n)$ $W$ , Могут быть преобразованы в оценки в зависимости только от , который является , по крайней мере , как хорошо для всех таких . $\bar x$ $W$

То, что было достигнуто в этом примере, типично: чрезвычайно сложный набор возможных процедур, который первоначально состоял из возможно рандомизированных функций переменных, был сведен к гораздо более простому набору процедур, состоящему из нерандомизированных функций одной переменной ( или, по крайней мере, меньшее количество переменных в случаях, когда достаточная статистика является многомерной). И это можно сделать, не беспокоясь о том, что такое функция потерь для лица, принимающего решения, при условии, что она выпуклая и дифференцируемая. $n$

Какова самая простая функция потери? Тот, который игнорирует остаточный член, конечно, делая его чисто квадратичной функцией. Другие функции потерь в этом же классе включают степеникоторые больше (такие как и упомянутые в вопросе), и многие другие. $z = |\hat\mu-\mu|$ $2$ $2.1, e,$ $\pi$ $\exp(z)-1-z$

фигура

Синяя (верхняя) кривая отображает а красная (нижняя) кривая отображает . Поскольку синяя кривая также имеет минимум в , является дифференцируемой и выпуклой, многие из приятных свойств статистических процедур, которыми обладает квадратичная потеря (красная кривая), будут также применяться к функции синей потери $2(\exp(|z|)-1-|z|)$ $z^2$ $0$ (даже если глобально экспоненциальная функция ведет себя иначе, чем квадратичная функция).

Эти результаты (хотя и явно ограниченные навязанными условиями) помогают объяснить, почему квадратичные потери являются повсеместными в статистической теории и практике: в ограниченной степени это аналитически удобный прокси для любой выпуклой дифференцируемой функции потерь.

Квадратичная потеря ни в коем случае не является единственной или даже лучшей потерей для рассмотрения. Действительно, Lehman пишет, что

Выпуклые функции потерь, как замечено, привели к ряду упрощений проблем оценки. Однако можно задаться вопросом, могут ли такие функции потерь быть реалистичными. Если представляет собой не просто меру неточности, а реальную (например, финансовую) потерю, можно утверждать, что все такие потери ограничены: как только вы потеряли все, вы больше не можете проиграть. ... $W(F, d)$

... [F] растущие функции потерь приводят к оценкам, которые, как правило, чувствительны к предположениям, сделанным относительно [поведения] хвоста [предполагаемого распределения], и эти предположения, как правило, основаны на небольшой информации и, следовательно, не очень надежный.

Оказывается, что оценки, произведенные квадратичной потерей ошибок, часто являются неудобно чувствительными в этом отношении.

[Lehman, раздел 1.6; с некоторыми изменениями обозначений.]

Рассмотрение альтернативных потерь открывает богатый набор возможностей: квантильная регрессия, M-оценки, надежные статистические данные и многое другое могут быть сформулированы таким теоретическим способом и обоснованы с помощью альтернативных функций потерь. Простой пример см. В разделе « Процентные потери» .

Ссылки

Джек Карл Кифер, Введение в статистический вывод. Springer-Verlag 1987.

Е. Л. Леманн, Теория точечного оценивания . Wiley 1983.

Whuber
источник

Почему квадратная разница так часто используется?

Ответы:

Ссылки