Оценка параметра равномерного распределения: неправильный априор?

У нас есть N выборок из равномерного распределения где неизвестно. Оцените из данных. $X_i$ $[0,\theta]$ $\theta$ $\theta$

Итак, правило Байеса ...

$f(\theta | {X_i}) = \frac{f({X_i}|\theta)f(\theta)}{f({X_i})}$

и вероятность:

$f({X_i}|\theta) = \prod_{i=1}^N \frac{1}{\theta}$ (редактировать: когда для всех и 0 в противном случае - спасибо whuber) $0 \le X_i \le \theta$ $i$

но без какой-либо другой информации о , кажется, что априор должен быть пропорционален (то есть равномерно) или (приор Джеффриса?) на но тогда мои интегралы не не сходятся, и я не знаю, как поступить. Любые идеи? $\theta$ $1$ $\frac{1}{L}$ $[0,\infty]$

bayesian estimation uniform uninformative-prior Будет
источник

Ваша вероятность неверна: она будет равна нулю всякий раз, когда меньше наибольшего .

θ

$\theta$

X_{i}

$X_i$

whuber

Можете ли вы показать, какие интегралы вы принимаете?

Да, так что, я думаю, я просто не знаю, как справиться с неподобающим предшественником. Например, я хочу написать

f [X_{i}] = \int_{Θ} f (X_{i} | θ) f (θ) d θ

$f[X_i] = \int_\Theta f(X_i|\theta)f(\theta)d\theta$

будет

Для неправильного априора = = и для предшествующего вы аналогично получаетеПоскольку почти наверняка, есть уверенность, что интегралы сойдутся.

f [X_{i}] = \int_{Θ} f (X_{i} | θ) f (θ) d θ

$f[X_i] = \int_\Theta f(X_i|\theta)f(\theta)d\theta$

\int_{max (X_{i})}^{\infty} θ^{- N} d θ

$\int_{\max(X_i)}^\infty \theta^{-N}d\theta$

max (X_{i})^{1 - N} / (N - 1)

$\max(X_i)^{1-N}/(N-1)$

f (θ) \propto 1 / θ

$f(\theta)\propto 1/\theta$

max (X_{i})^{- N} / N .

$\max(X_i)^{-N}/N.$

max X_{i} > 0

$\max{X_i}\gt 0$

whuber

Бернардо ссылается на задний план Парето - см. Каталог неинформативных априорных значений .

Стефан Лоран,

Ответы:

Это вызвало некоторые интересные дебаты, но обратите внимание, что это действительно не имеет большого значения для вопроса интереса. Лично я думаю, что, поскольку является параметром масштаба, аргумент группы преобразования является подходящим, приводя к $\theta$

\begin{matrix} p (θ | I) = \frac{θ^{- 1}}{\log (\frac{U}{L})} \propto θ^{- 1} & L < θ < U \end{matrix}

$\begin{array}& p(\theta|I)=\frac{\theta^{-1}}{\log\left(\frac{U}{L}\right)}\propto\theta^{-1} & L<\theta<U\end{array}$

Это распределение имеет ту же форму при масштабировании задачи (вероятность также остается «инвариантной» при масштабировании). Ядро этого априора может быть получено путем решения функционального уравнения . Значения зависят от проблемы и действительно имеют значение, только если размер выборки очень мал (например, 1 или 2). Задняя часть представляет собой усеченное парето, определяемое как: $f(y)=y^{-1}$ $af(ay)=f(y)$ $L,U$

\begin{matrix} p (θ | D I) = \frac{N θ^{- N - 1}}{(L^{*})^{- N} - U^{- N}} & L^{*} < θ < U & where & L^{*} = m a x (L, X_{(N)}) \end{matrix}

$\begin{array}\\ p(\theta|DI)=\frac{N\theta^{-N-1}}{ (L^{*})^{-N}-U^{-N}} & L^{*}<\theta<U & \text{where} & L^{*}=max(L,X_{(N)}) \end{array}$ Где - N-е число статистика заказа или максимальное значение выборки. Мы получаем апостериорное среднее Если мы установите и чтобы получить более простое выражение .

X_{(N)}

$X_{(N)}$

E (θ | D I) = \frac{N ((L^{*})^{1 - N} - U^{1 - N})}{(N - 1) ((L^{*})^{- N} - U^{- N})} = \frac{N}{N - 1} L^{*} (\frac{1 - {[\frac{L^{*}}{U}]}^{N - 1}}{1 - {[\frac{L^{*}}{U}]}^{N}})

$E(\theta|DI)= \frac{ N((L^{*})^{1-N}-U^{1-N}) }{ (N-1)((L^{*})^{-N}-U^{-N}) }=\frac{N}{N-1}L^{*}\left(\frac{ 1-\left[\frac{L^{*}}{U}\right]^{N-1} }{ 1-\left[\frac{L^{*}}{U}\right]^{N} }\right)$

U \to \infty

$U\to\infty$

L \to 0

$L\to 0$

E (θ | D I) = \frac{N}{N - 1} X_{(N)}

$E(\theta|DI)=\frac{N}{N-1}X_{(N)}$

Но теперь предположим, что мы используем более общий априор, заданный (обратите внимание, что мы сохраняем пределы чтобы гарантировать, что все правильно - никаких особых математических выражений тогда ). Апостериор тогда такой же, как и выше, но с заменой на - при условии, что . Повторяя приведенные выше расчеты, мы упростили среднее $p(\theta|cI)\propto\theta^{-c-1}$ $L,U$ $N$ $c+N$ $c+N\geq 0$

E (θ | D I) = \frac{N + c}{N + c - 1} X_{(N)}

$E(\theta|DI)=\frac{N+c}{N+c-1}X_{(N)}$

Таким образом, единообразный априор ( ) даст оценку при условии, что (среднее значение для бесконечно ). Это показывает, что спор здесь немного похож на то, использовать или нет или в качестве делителя в оценке дисперсии. $c=-1$ $\frac{N-1}{N-2}X_{(N)}$ $N\geq 2$ $N=2$ $N$ $N-1$

Один аргумент против использования неподходящей униформы априора в этом случае состоит в том, что апостериор неправильный, когда , так как он пропорционален . Но это имеет значение только если или очень мало. $N=1$ $\theta^{-1}$ $N=1$

probabilityislogic
источник

Поскольку цель здесь, по-видимому, заключается в получении некоторой достоверной и полезной оценки , предварительное распределение должно соответствовать спецификации распределения населения, из которого происходит выборка. Это никоим образом не означает, что мы «вычислим» предшествующее использование самого образца - это сведет на нет действительность всей процедуры. Мы действительно знаем, что совокупность, из которой происходит выборка, представляет собой совокупность одинаковых случайных величин, каждая из которых находится в диапазоне . Это предположение поддерживается и является частью предшествующей информации, которой мы обладаем (и она не имеет ничего общего с выборкой , то есть с конкретной реализацией подмножества этих случайных переменных). $\theta$ $[0,\theta]$

Теперь предположим, что эта совокупность состоит из случайных величин (в то время как наша выборка состоит из реализаций случайных величин). Поддерживаемое предположение говорит нам, что $m$ $n<m$ $n$

max_{i = 1, . . ., n} {X_{i}} \leq max_{j = 1, . . ., m} {X_{j}} \leq θ

$\max_{i=1,...,n}\{X_i\}\le \max_{j=1,...,m}\{X_j\} \le \theta$

Обозначим для компактности . Тогда у нас есть который также может быть записан как $\max_{i=1,...,n}\{X_i\} \equiv X^*$ $\theta \ge X^*$

θ = c X^{*} c \geq 1

$\theta = cX^*\qquad c\ge 1$

Функция плотности из из IID Равномерное с.в. в диапазоне является $\max$ $N$ $[0,\theta]$

f_{X^{*}} (x^{*}) = N \frac{(x^{*})^{N - 1}}{θ^{N}}

$f_{X^*}(x^*) = N\frac {(x^*)^{N-1}}{\theta^N}$

для поддержки и ноль в другом месте. Затем, используя и применяя формулу изменения переменной, мы получаем предварительное распределение для , которое согласуется с поддерживаемым предположением: $[0,\theta]$ $\theta = cX^*$ $\theta$

f_{p} (θ) = N \frac{(\frac{θ}{c})^{N - 1}}{θ^{N}} \frac{1}{c} = \frac{N}{c^{N}} θ^{- 1} θ \in [x^{*}, \infty]

$f_p(\theta) = N\frac {(\frac{\theta}{c})^{N-1}}{\theta^N}\frac 1c = \frac {N}{c^N} \theta^{-1}\qquad \theta \in [x^*, \infty]$

что может быть неправильно, если мы не укажем константу соответствующим образом. Но наш интерес заключается в том, чтобы иметь правильную апостериор для , а также мы не хотим ограничивать возможные значения (за исключением ограничения, подразумеваемого поддерживаемым предположением). Таким образом , мы выходим неопределенными. Затем, написав апостериорный $c$ $\theta$ $\theta$ $c$
$\mathbf X = \{x_1,..,x_n\}$

f (θ ∣ X) \propto θ^{- N} \frac{N}{c^{N}} θ^{- 1} \Rightarrow f (θ ∣ X) = A \frac{N}{c^{N}} θ^{- (N + 1)}

$f(\theta \mid \mathbf X)\; \propto\; \theta^{-N}\frac {N}{c^N} \theta^{-1} \Rightarrow f(\theta \mid \mathbf X) = A\frac {N}{c^N} \theta^{-(N+1)}$

для некоторой нормализующей константы A. Мы хотим

\int_{S_{θ}} f (θ ∣ X) d θ = 1 \Rightarrow \int_{x^{*}}^{\infty} A \frac{N}{c^{N}} θ^{- (N + 1)} d θ = 1

$\int_{S_{\theta}}f(\theta \mid \mathbf X)d\theta =1 \Rightarrow \int_{x^*}^{\infty}A\frac {N}{c^N} \theta^{-(N+1)}d\theta =1$

\Rightarrow A \frac{N}{c^{N}} \frac{1}{- N} θ^{- N} |_{x^{*}}^{\infty} = 1 \Rightarrow A = (c x^{*})^{N}

$\Rightarrow A\frac {N}{c^N}\frac {1}{-N}\theta^{-N}\Big |_{x^*}^{\infty} = 1 \Rightarrow A = (cx^*)^N$

Вставка в заднюю часть

f (θ ∣ X) = (c x^{*})^{N} \frac{N}{c^{N}} θ^{- (N + 1)} = N (x^{*})^{N} θ^{- (N + 1)}

$f(\theta \mid \mathbf X) = (cx^*)^N\frac {N}{c^N} \theta^{-(N+1)} = N(x^*)^N\theta^{-(N+1)}$

Обратите внимание, что неопределенная константа предыдущего распределения удобно удаляется. $c$

Апостериор суммирует всю информацию, которую конкретный образец может дать нам относительно значения . Если мы хотим получить конкретное значение для мы можем легко рассчитать ожидаемое значение апостериора, $\theta$ $\theta$

E (θ ∣ X) = \int_{x^{*}}^{\infty} θ N (x^{*})^{N} θ^{- (N + 1)} d θ = - \frac{N}{N - 1} (x^{*})^{N} θ^{- N + 1} |_{x^{*}}^{\infty} = \frac{N}{N - 1} x^{*}

$E(\theta\mid \mathbf X) = \int_{x^*}^{\infty}\theta N(x^*)^N\theta^{-(N+1)}d\theta = -\frac{N}{N-1}(x^*)^N\theta^{-N+1}\Big |_{x^*}^{\infty} = \frac{N}{N-1}x^*$

Есть ли интуиция в этом результате? Что ж, по мере того, как число увеличивается, более вероятно, что максимальная реализация среди них будет все ближе и ближе к их верхней границе, - что в точности соответствует последнему среднему значению : если, скажем, , , но если , Это показывает, что наша тактика в отношении выбора предыдущего была разумной и соответствовала рассматриваемой проблеме, но не обязательно «оптимальной» в некотором смысле. $X$ $\theta$ $\theta$ $N=2 \Rightarrow E(\theta\mid \mathbf X) = 2x^*$ $N=10 \Rightarrow E(\theta\mid \mathbf X) = \frac{10}{9}x^*$

Алекос Пападопулос
источник

Основываясь на предварительных данных звучит подозрительно для меня. Как вы обосновываете такой подход?

whuber

Я ничего не имею против того, что ваш предшественник не "лучший". Где я сказал что-то подобное? Я просто пытаюсь понять твой подход. Я еще не понимаю это равенство. Если постоянна в равенстве , значит ли это, что и неслучайны? Кстати, вы не используете тот факт, что при выводе предыдущего, не так ли? (cc @whuber)

c

$c$

θ = c X^{*}

$\theta=cX^*$

X^{*}

$X^*$

θ

$\theta$

c \geq 1

$c \geq 1$

Стефан Лоран

А поддержка твоего приора зависит от данных? ( )

θ \in [x^{*}, \infty [

$\theta \in [x^*, \infty[$

Стефан Лоран,

Априорная зависимость (даже если это только через поддержку) от данных звучит неправильно: вы не можете знать максимум сэмпла до того, как сэмпл был сгенерирован . Более того, вы утверждаете, что является почти верным равенством, причем как и random (таким образом, существует корреляция ). Но это подразумевает, что апостериорное распределение (которое является условным распределением данного образца) является массой Дирака в . И это противоречит вашему выводу апостериорного распределения. ... (персонажей не осталось ...)

θ = c X^{*}

$\theta = cX^*$

θ

$\theta$

X^{*}

$X^*$

1

$1$

θ

$\theta$

θ

$\theta$

c x^{*}

$cx^*$

Стефан Лоран,

Последующее распределение - это Дирак в точке означает, что - это . Теорема Байеса не является причиной. Вы уничтожаете все, предполагая . Это означает, что , поэтому условное распределение заданное является массой Дирака в , тогда как исходное предположение состоит в том, что это распределение является равномерным распределением на .

θ

$\theta$

c x^{*}

$cx^*$

θ

$\theta$

c x^{*}

$cx^*$

θ = c X^{*}

$\theta = cX^*$

X^{*} = θ / c

$X^*=\theta/c$

X^{*}

$X^*$

θ

$\theta$

θ / c

$\theta/c$

(0, θ)

$(0,\theta)$

Стефан Лоран

Теорема о равномерном априорном распределении (интервальный случай):

«Если вся информация о внешняя по отношению к данным , захвачена одним предложением тогда Ваша единственная возможная логически-внутренне согласованная предварительная спецификация - это $\theta$ $D$

B = {{Possible values for θ} = {the interval (a, b)}, a < b}

$B=\{\{\text{Possible values for } \theta\}=\{\text{the interval } (a,b)\},a<b\}$

f (θ) = Uniform (a, b)

$f(\theta)=\text{Uniform}(a,b)$

Таким образом, ваша предварительная спецификация должна соответствовать предварительной версии Джеффри, если вы действительно верите в приведенную выше теорему ".

Не является частью теоремы о равномерном предыдущем распределении:

В качестве альтернативы вы можете указать свое предыдущее распределение как распределение Парето, которое является сопряженным распределением для униформы, зная, что ваше последующее распределение должно быть другим равномерным распределением по сопряженности. Однако, если вы используете дистрибутив Pareto, вам нужно будет каким-то образом указать параметры распределения Pareto. $f(\theta)$

источник

Сначала вы говорите, что «единственно возможным логически внутренне согласованным» ответом является равномерное распределение, а затем вы приступаете к предложению альтернативы. Это звучит нелогично и противоречиво для меня :-).

whuber

Я не могу согласиться Например, также является множествомКогда PDF для равен для . Но согласно "теореме", , pdf которого равен в этом интервале. Короче говоря, хотя утверждение не зависит от того, как проблема параметризована, вывод «теоремы» зависит от параметризации, поэтому она неоднозначна.

B

$B$

{θ | θ^{3} \in (a^{3}, b^{3})} .

$\{\theta | \theta^3\in(a^3, b^3)\}.$

Θ \sim Uniform (a, b),

$\Theta\sim\text{Uniform}(a,b),$

Ψ = Θ^{3}

$\Psi=\Theta^3$

1 / (3 ψ^{2 / 3} (b - a))

$1/(3\psi^{2/3}(b-a))$

a^{3} < ψ < b^{3}

$a^3\lt \psi\lt b^3$

Ψ \sim Uniform (a^{3}, b^{3})

$\Psi\sim\text{Uniform}(a^3,b^3)$

1 / (b^{3} - a^{3})

$1/(b^3-a^3)$

whuber

BabakP: Как можно сказать, что это теорема ? Теорема - это математическое утверждение с математическим доказательством. Эту «теорему» более целесообразно назвать «принципом», но она не имеет смысла, потому что она противоречива, как показывает @whuber.

Стефан Лоран

Спасибо за ссылку BabakP. Я хотел бы отметить, что «эскиз доказательства» является поддельным. Дрейпер делит интервал на конечное число одинаково расположенных значений и «переходит к пределу». Любой может разделить интервал на значения, отстоящие друг от друга для аппроксимации любой плотности, которую они любят, и аналогичным образом переходят к пределу, создавая совершенно произвольные «только возможные логически-внутренне согласованные предыдущие спецификации». Подобные вещи - а именно, использование плохой математики в попытке показать, что небайесовцы нелогичны - дают байесовскому анализу (незаслуженно) дурную славу. (Копия @ Стефан.)

whuber

@ Стефан Пожалуйста, прости мою нечувствительность ( insensibilité ) - я восхищаюсь твоим умением общаться здесь на другом языке и не использую заведомо неясные термины! Bogus - это прилагательное, которое происходит от 200-летнего американского сленгового термина, обозначающего машину для подделки денег. В данном случае это математическая машина для подделок теорем :-).

whuber