Как оценка, которая минимизирует взвешенную сумму квадратов смещения и дисперсии, вписывается в теорию принятия решений?

Хорошо, мое оригинальное сообщение не смогло получить ответ; Итак, позвольте мне поставить вопрос по-другому. Я начну с объяснения моего понимания оценки с точки зрения теории решения. У меня нет формального обучения, и меня не удивит, если мое мышление каким-то образом ошибочно.

Предположим , у нас есть некоторая функция потерь $L(\theta,\hat\theta(x))$ . Ожидаемая потеря является (частым) риском:

R (θ, \hat{θ} (x)) = \int L (θ, \hat{θ} (x)) L (θ, \hat{θ} (x)) d x,

$R(\theta,\hat\theta(x))=\int L(\theta,\hat\theta(x))\mathcal{L}(\theta,\hat\theta(x))dx,$

где является вероятность; и риск Байеса является ожидаемым частым риском: $\mathcal{L}(\theta,\hat\theta(x))$

r (θ, \hat{θ} (x)) = \int \int R (θ, \hat{θ} (x)) π (θ) d x d θ,

$r(\theta,\hat\theta(x))=\int\int R(\theta,\hat\theta(x))\pi (\theta)dxd\theta,$

где является нашим предшественником. $\pi (\theta)$

В общем, мы находим & , что минимизирует , и все это работает хорошо; кроме того , теорема Фубини применяется , и мы можем изменить порядок интегрирования так , что любой , что сводит к минимуму $\hat\theta(x)$ $r$ $\hat\theta(x)$ $r$ не зависит от всех остальных. Таким образом, принцип правдоподобия не нарушается, и мы можем чувствовать себя хорошо, будучи байесовскими и так далее.

Например, если знакомый квадрат ошибки, потери наш частотный риск среднеквадратичной ошибки или сумму квадратов ошибки и дисперсии и нашей Риск байесовского риска - это ожидаемая сумма квадратов смещения и дисперсии с учетом наших предыдущих, то есть апостериорных ожидаемых потерь. $L(\theta,\hat\theta(x))=(\theta- \hat\theta(x))^2,$

Это пока кажется мне разумным (хотя я могу быть совершенно неправым); но, в любом случае, для меня некоторые вещи имеют куда меньшее значение. Например, предположим , что вместо минимизации суммы одинаково взвешенной квадратичной ошибки и дисперсии, я хочу минимизировать неравномерным взвешенную сумму - то есть, я хочу & , которые минимизируют: $\hat\theta(x)$

(E [\hat{θ} (x)] - θ)^{2} + k E [(\hat{θ} (x) - E [\hat{θ} (x)])^{2}],

$(\mathbb{E}[\hat\theta(x)]-\theta)^2+k\mathbb{E}[(\hat\theta(x)-\mathbb{E}[\hat\theta(x)])^2],$

где - некоторая положительная вещественная постоянная (отличная от 1). $k$

Обычно я называю такую сумму «целевой функцией», хотя, возможно, я неправильно использую этот термин. Мой вопрос не о том , как найти решение - находя & , которые минимизируют эту целевую функцию выполнимо численно - скорее, мой вопрос имеет два аспекта: $\hat\theta(x)$

Может ли такая целевая функция вписаться в парадигму теории решений? Если нет, есть ли другая структура, в которую он вписывается? Если да, то как? Похоже , что соответствующая функция потерь была бы функция & , , и , что - из - за ожидания - это (я думаю) не правильный. $\theta$ $\hat\theta(x)$ $\mathbb{E}[\hat\theta(x)]$
Такая целевая функция нарушает принцип правдоподобия , поскольку любая данная оценка зависит от всех других оценок (даже гипотетических). Тем не менее, бывают случаи, когда обмен на увеличение дисперсии ошибок для уменьшения смещения желателен. Учитывая такую цель, есть ли способ концептуализировать проблему так, чтобы она соответствовала принципу вероятности? $\hat\theta(x_{j})$ $\hat\theta(x_{i\neq j})$

Я предполагаю, что мне не удалось понять некоторые фундаментальные понятия о теории принятия решений / оценке / оптимизации. Заранее благодарен за любые ответы и, пожалуйста, предположите, что я ничего не знаю, поскольку у меня нет обучения в этой области или математике в целом. Кроме того, любые предлагаемые ссылки (для наивного читателя) приветствуются.

bias loss-functions frequentist decision-theory risk user153935
источник

Это довольно интересный и новый вопрос! На формальном уровне, с использованием функции риски частотной означает использование (например) функции потерь определяется как

(E_{θ} [\hat{θ} (X)] - θ)^{2} + k E_{θ} [(\hat{θ} (X) - E [\hat{θ} (X)])^{2}],

$(\mathbb{E}_\theta[\hat\theta(X)]-\theta)^2+k\mathbb{E}_\theta[(\hat\theta(X)-\mathbb{E}[\hat\theta(X)])^2],$

, так как нет никаких оснований запретить ожиданиякак

появляться в функция потерь. Точто они зависят от целого распределения

является функциейкоторая может показаться странным, но в целом распределение устанавливается как функция

L (θ, \hat{θ}) = (E_{θ} [\hat{θ} (X)] - θ)^{2} + k (\hat{θ} - E_{θ} [\hat{θ} (X)])^{2}

$L(\theta,\hat{\theta})=(\mathbb{E}_\theta[\hat\theta(X)]-\theta)^2+k(\hat\theta-\mathbb{E}_\theta[\hat\theta(X)])^2$

E_{θ} [\hat{θ} (X)]

$\mathbb{E}_\theta[\hat\theta(X)]$

\hat{θ} (X)

$\hat{\theta}(X)$

и в результате потери, таким образомявляется функцией

и распределение

θ

$\theta$

θ

$\theta$

\hat{θ}

$\hat{\theta}$

\hat{θ} (X)

$\hat{\theta}(X)$

$L(\theta,\delta)$ $\theta$ $\delta$ $\Theta$ $\delta$ $x$ $X$ $X$ $\theta$ , не может быть рассмотрено. То, что оно может нарушать принцип правдоподобия, не имеет прямого отношения к теории принятия решений и не препятствует формальному выводу оценки Байеса.

Сиань
источник

Как оценка, которая минимизирует взвешенную сумму квадратов смещения и дисперсии, вписывается в теорию принятия решений?

Ответы: