Как строго определить вероятность?

30

Вероятность может быть определена несколькими способами, например:

  • функция LL из Θ × X,Θ×X которая отображает в т.е. .(θ,x)(θ,x)L(θx)L(θx)L:Θ×XRL:Θ×XR

  • случайная функцияL(X)L(X)

  • мы также можем учитывать, что вероятность - это только «наблюдаемая» вероятность L ( | х набл )L(xobs)

  • на практике вероятность доводит информацию о θθ только до мультипликативной константы, поэтому мы можем рассматривать вероятность как класс эквивалентности функций, а не как функцию

Другой вопрос возникает при рассмотрении изменения параметризации: если ϕ = θ 2ϕ=θ2 - это новая параметризация, которую мы обычно обозначаем через L ( ϕ x )L(ϕx) вероятность для φϕ и это не оценка предыдущей функции L ( | х )L(x) в θ 2θ2 но в φϕ . Это оскорбительное, но полезное обозначение, которое может вызвать трудности у начинающих, если оно не подчеркнуто.

Какое ваше любимое строгое определение вероятности?

Кроме того, как вы называете L ( θ x )L(θx) ? Я обычно говорю что-то вроде «вероятность на θθ когда Иксx наблюдается».

РЕДАКТИРОВАТЬ: с учетом некоторых комментариев ниже, я понимаю, что я должен был уточнить контекст. Я рассматриваю статистическую модель, заданную параметрическим семейством { f ( θ ) , θ Θ }{f(θ),θΘ} плотностей относительно некоторой доминирующей меры, с каждым f ( θ )f(θ) определено в пространстве наблюдений ИксX . Следовательно, мы определяем L ( θ x ) = f ( x θ )L(θx)=f(xθ) и возникает вопрос "что такое LL ?" (вопрос не в общем определении вероятности)

Стефан Лоран
источник
2
(1) Поскольку для всех , я считаю, что даже константа в определена. (2) Если вы считаете, что такие параметры, как и являются просто координатами для множества распределений, то изменение параметризации не имеет внутреннего математического значения; это просто изменение описания. (3) Носители английского языка будет более естественно сказать , «вероятность того, из » , а не «на» . (4) Пункт «когда наблюдается» имеет философские трудности, потому что большинство никогда не будет соблюдаться. Почему бы просто не сказать "вероятность дана"L(θ|x)dx=1L(θ|x)dx=1θθLLϕϕθθ θθxxxxθθxx "?
whuber
1
@whuber: Для (1) я не думаю, что константа четко определена. См. Книгу Е. Т. Джейнса, где он пишет: «вероятность не является вероятностью, потому что ее нормализация является произвольной».
Нил Дж
3
Вы, кажется, путаете два вида нормализации, Нейл: Джейнс имел в виду нормализацию путем интеграции через , а не . θθxx
whuber
1
@whuber: Я не думаю, что коэффициент масштабирования будет иметь значение для границы Крамера-Рао, потому что изменение добавляет постоянную величину к логарифмической вероятности, которая затем исчезает, когда берется частная производная. Кk
Нил Дж
1
Я согласен с Нилом, я не вижу ни одного приложения, где константа играет роль
Стефан Лоран

Ответы:

13

Ваш третий пункт - тот, который я видел наиболее часто используемым в качестве строгого определения.

Остальные тоже интересны (+1). В частности, первое является привлекательным, поскольку трудно определить размер выборки (пока), сложнее определить набор «от».

Для меня фундаментальная интуиция вероятности состоит в том, что она является функцией модели + ее параметров, а не функцией случайных величин (также важным моментом в учебных целях). Поэтому я бы придерживался третьего определения.

Источником злоупотребления нотацией является то, что множество вероятностей «от» является неявным, что обычно не относится к четко определенным функциям. Здесь наиболее строгий подход состоит в том, чтобы понять, что после преобразования вероятность связана с другой моделью. Это эквивалентно первой, но все же другой модели. Таким образом, запись правдоподобия должна показывать, к какой модели она относится (подстрочный или другой). Я никогда не делаю это, конечно, но для обучения, я мог бы.

Наконец, чтобы соответствовать моим предыдущим ответам, я говорю «вероятность θ » в вашей последней формуле.θ

gui11aume
источник
Спасибо. А что вы посоветуете относительно равенства с точностью до мультипликативной константы?
Стефан Лоран
Лично я предпочитаю вызывать это при необходимости, а не жестко кодировать в определении. И подумайте, что для выбора / сравнения моделей это равенство «до мультипликативной константы» не выполняется.
gui11aume
Хорошо. Что касается названия, можно представить, что вы обсуждали вероятность L ( θ x 1 ) и L ( θ x 2 ) для двух возможных наблюдений. В таком случае, вы бы сказали «вероятность θ при наблюдении x 1 », или «вероятность θ для наблюдения x 1 », или что-то еще? L(θx1)L(θx2)θx1θx1
Стефан Лоран
1
Если вы повторно параметризовали свою модель с ϕ = θ 2, вы фактически вычисляете вероятность как композицию функций L ( . | X ) g ( . ) Где g ( y ) = y 2 . В этом случае g переходит от R к R +, поэтому набор определения (упомянутый как «из» набора) вероятности больше не является тем же. Вы можете вызвать первую функцию L 1 ( . | )ϕ=θ2L(.|x)g(.)g(y)=y2gRR+L1(.|)и второй L 2 ( . | ), потому что они не являются одинаковыми функциями. L2(.|)
gui11aume
1
Насколько строгое третье определение? И в чем проблема с размером выборки, который не определен? Поскольку мы говорим P ( x 1 , x 2 , , x nθ ) , что, естественно, приводит к появлению соответствующей сигма-алгебры для выборочного пространства Ω n , почему мы не можем иметь параллельное определение вероятностей? P(x1,x2,,xnθ)Ωn
Нил Дж
8

Я думаю, я бы назвал это чем-то другим. Вероятность - это плотность вероятности для наблюдаемого x с учетом значения параметра θ, выраженного как функция от θ для данного x . Я не разделяю мнение о константе пропорциональности. Я думаю, что это вступает в игру только потому, что максимизация любой монотонной функции вероятности дает такое же решение для θ . Таким образом, вы можете максимизировать c L ( θx ) для c > 0 или других монотонных функций, таких как log ( L ( θx ) )θθxθcL(θx)c>0log(L(θx)) что обычно делается.

Майкл Р. Черник
источник
4
Не только максимизация: пропорциональность также играет роль в понятии отношения правдоподобия и в формуле Байеса для байесовской статистики
Стефан Лоран
Я думал, что кто-то может понизить мой ответ. Но я думаю, что вполне разумно определить вероятность таким образом как окончательную вероятность, не называя ничего пропорциональным вероятности. @ StéphaneLaurent к вашему комментарию о приорах, если функция интегрируема, ее можно нормализовать до плотности. Задний пропорционален вероятности, умноженной на предыдущую. Поскольку апостериор должен быть нормализован путем деления на интеграл, мы могли бы также указать до распределения. Это только в расширенном смысле, что это применяется к неправильным приоры.
Майкл Р. Черник
1
Я не совсем уверен, почему кто-то отрицает этот ответ. Похоже, вы пытаетесь ответить на второй вопрос ОП больше, чем на первый. Возможно, это было не совсем понятно для других читателей. Приветствия. :)
кардинал
@ Майкл Я тоже не вижу необходимости понижать этот ответ. Что касается неинформативных априоров (это еще одно обсуждение и), я намереваюсь открыть новое обсуждение этой темы. Я не буду делать это в ближайшее время, потому что мне нелегко с английским, и мне труднее писать «философию», чем математику.
Стефан Лоран
1
@ Стефан: Если вы хотите, пожалуйста, рассмотрите возможность размещения вашего другого вопроса непосредственно на французском языке. На этом сайте есть несколько носителей французского языка, которые, вероятно, помогут перевести любые отрывки, в которых вы не уверены. Сюда входит модератор, а также редактор одного из самых популярных англоязычных журналов статистики. Я с нетерпением жду вопроса.
кардинал
6

Вот попытка строгого математического определения:

Пусть X : Ом R п случайный вектор , который допускает плотность п ( х | & thetas ; 0 ) относительно некоторой меры v , на R п , где для & thetas ∈ & thetas ; , { F ( х | & thetas ; ) : & thetas ; ∈ & thetas ; } семейство плотностей на R n относительно ν . Тогда для любого x R n определим функцию правдоподобияX:ΩRnf(x|θ0)νRnθΘ{f(x|θ):θΘ}RnνxRnL ( θ | x ) будет f ( x | θ ) ; для ясности, для каждого х мы имеем L х : & thetas R . Можно думать, что x является конкретным потенциалом x o b s, а θ 0 является «истинным» значением θ .L(θ|x)f(x|θ)xLx:ΘRxxobsθ0θ

Пара замечаний по поводу этого определения:

  1. Определение достаточно прочная для обработки дискретных, непрерывных и других видов семейств распределений X .X
  2. Мы определяем вероятность на уровне функций плотности, а не на уровне распределения вероятностей / мер. Причина этого заключается в том, что плотности не являются уникальными, и оказывается, что это не та ситуация, когда можно перейти к классам эквивалентности плотностей и при этом быть безопасными: разные варианты выбора плотности приводят к разным MLE в непрерывном случае. Однако в большинстве случаев существует естественный выбор семейства плотностей, которые теоретически желательны.
  3. Мне нравится это определение, потому что оно включает в себя случайные переменные, с которыми мы работаем, и по замыслу, поскольку мы должны назначить им распределение, мы также строго встроили понятие «истинного, но неизвестного» значения θ , которое здесь обозначается θ 0 . Для меня, как студента, задача быть строгим о вероятности всегда была , как согласовать реальные мировые концепции «истинного» & thetas и «наблюдаемым» х о б ы с математикой; это часто не помогалось инструкторами, утверждающими, что эти понятия не были формальными, но затем поворачивались и использовали их формально при доказательстве! Таким образом, мы имеем дело с ними формально в этом определении.θθ0θxobs
  4. EDIT: Of course, we are free to consider the usual random elements L(θ|X)L(θ|X), S(θ|X)S(θ|X) and I(θ|X)I(θ|X) and under this definition with no real problems with rigor as long as you are careful (or even if you aren't if that level of rigor is not important to you).
guy
источник
4
@Xi'an Let X1,...,XnX1,...,Xn be uniform on (0,θ)(0,θ). Consider two densities f1(x)=θ1I[0<x<θ]f1(x)=θ1I[0<x<θ] versus f2(x)=θ1I[0xθ]f2(x)=θ1I[0xθ]. Both f1f1 and f2f2 are valid densities for U(0,θ)U(0,θ), but under f2f2 the MLE exists and is equal to maxXimaxXi whereas under f1f1 we have jf1(xj|maxxi)=0jf1(xj|maxxi)=0 so that if you set ˆθ=maxXiθ^=maxXi you end up with a likelihood of 00, and in fact the MLE doesn't exist because supθjf1(x|θ)supθjf1(x|θ) is not attained for any θθ.
guy
1
@guy: thanks, I did not know about this interesting counter-example.
Xi'an
1
@guy You said that supθjf1(xj|θ)supθjf1(xj|θ) is not attained for any θθ. However, this supremum is attained at some point as I show below: L1(θ;x)=nj=1f1(xj|θ)=θnnj=1I(0<xj<θ)=θnI(0<M<θ),
L1(θ;x)=j=1nf1(xj|θ)=θnj=1nI(0<xj<θ)=θnI(0<M<θ),
where M=max{x1,,xn}M=max{x1,,xn}. I am assuming that xj>0xj>0 for all j=1,,nj=1,,n. It is simple to see that 1. L1(θ;x)=0L1(θ;x)=0, if 0<θM0<θM; 2. L1(θ;x)=θnL1(θ;x)=θn, if M<θ<. Continuing...
Alexandre Patriota
1
@guy: continuing... That is, L1(θ;x)[0,Mn),
for all θ(0,). We do not have a maximum value but the supremum does exist and it is given by supθ(0,)L1(θ,x)=Mn
and the argument is M=argsupθ(0,)L1(θ;x).
Perhaps, the usual asymptotics are not applied here and some other tolls should be employed. But, the supremum of L1(θ;x) does exist or I missed some very basic concepts.
Alexandre Patriota
1
@AlexandrePatriota The supremum exists, obviously, but it is not attained by the function. I'm not sure what the notation argsup is supposed to mean - there is no argument of L1(θ;x) which yields the sup because L1(θ;M)=0. The MLE is defined as any ˆθ which attains the sup (typically) and no ˆθ attains the sup here. Obviously there are ways around it - the asymptotics we appeal to require that there exists a likelihood with such-and-such properties, and there does. It's just L2 rather than L1.
guy