Что на практике означает «вероятность определяется только с точностью до мультипликативной константы пропорциональности»?

19

Я читаю статью, в которой авторы ведут от обсуждения оценки максимального правдоподобия к теореме Байеса, якобы в качестве введения для начинающих.

Как пример вероятности, они начинаются с биномиального распределения:

p(x|n,θ)=(nx)θx(1θ)nx

а затем войти обе стороны

(θ|x,n)=xln(θ)+(nx)ln(1θ)

с обоснованием того, что:

«Поскольку вероятность определяется только с точностью до мультипликативной константы пропорциональности (или аддитивной константы для логарифмического правдоподобия), мы можем перемасштабировать… путем понижения биномиального коэффициента и записи логарифмического правдоподобия вместо вероятности»

Математика имеет смысл, но я не могу понять, что означает «вероятность определяется только с точностью до мультипликативной константы пропорциональности» и как это позволяет снизить биномиальный коэффициент и перейти от к \ ell (\ theta | x, n) .( θ | x , n )p(x|n,θ)(θ|x,n)

Подобная терминология возникла и в других вопросах ( здесь и здесь ), но все еще неясно, что практически означает вероятность определения или доведение информации до мультипликативной константы. Можно ли объяснить это с точки зрения непрофессионала?

KMM
источник

Ответы:

18

Дело в том, что иногда разные модели (для одних и тех же данных) могут приводить к функциям правдоподобия, которые отличаются мультипликативной константой, но содержание информации должно быть одно и то же. Пример:

Мы моделируем независимых экспериментов Бернулли, которые приводят к данным , каждый с распределением Бернулли с параметром (вероятности) . Это приводит к функции правдоподобия Или мы можем суммировать данные по биномиально распределенной переменной , который имеет биномиальное распределение, приводящее к функции правдоподобия которая в зависимости от неизвестного параметра пропорциональна предыдущей функции правдоподобия , Две функции правдоподобия явно содержат одну и ту же информацию и должны приводить к одним и тем же выводам!nX1,,Xnp

i=1npxi(1p)1xi
Y=X1+X2++Xn
(ny)py(1p)ny
p

И действительно, по определению они считаются одной и той же вероятностной функцией.

Другая точка зрения: обратите внимание, что когда функции правдоподобия используются в теореме Байеса, как это необходимо для байесовского анализа, такие мультипликативные константы просто отменяются! поэтому они явно не имеют отношения к байесовскому выводу. Кроме того, он будет отменять при расчете отношений правдоподобия, как это используется в тестах оптимальных гипотез (лемма Неймана-Пирсона). И это не будет влиять на значение оценок максимального правдоподобия. Таким образом, мы можем видеть, что в большинстве частых выводов это не может играть роль.

Мы можем спорить с еще одной точки зрения. Функция вероятности Бернулли (здесь и далее мы используем термин «плотность») на самом деле представляет собой плотность по отношению к счетной мере, то есть меру неотрицательных целых чисел с массой один для каждого неотрицательного целого числа. Но мы могли бы определить плотность относительно некоторой другой доминирующей меры. В этом примере это будет казаться (и является) искусственным, но в больших пространствах (функциональных пространствах) это действительно фундаментально! Давайте в целях иллюстрации воспользуемся определенным геометрическим распределением, написанным , с , , и скоро. Тогда плотность распределения Бернулли относительноλλ(0)=1/2λ(1)=1/4λ(2)=1/8λе А , ( х ) = р х ( 1 - р ) 1 - х2 х + 1 P ( X = x ) = f λ ( x ) λзадается как что означает, что С этой новой, доминирующей мерой функция правдоподобия становится (с обозначениями сверху) обратите внимание на дополнительный множитель . Таким образом, при изменении доминирующей меры, используемой в определении функции правдоподобия, возникает новая мультипликативная константа, которая не зависит от неизвестного параметра

fλ(x)=px(1p)1x2x+1
P(X=x)=fλ(x)λ(x)
i=1npxi(1p)1xi2xi+1=py(1p)ny2y+n
2y+npи явно не имеет значения. Это еще один способ увидеть, как мультипликативные константы должны быть неактуальными. Этот аргумент может быть обобщен с использованием производных Радона-Никодима (так как приведенный выше аргумент является примером.)

Къетил б Халворсен
источник
«содержание информации должно быть одно и то же». Это верно только в том случае, если вы верите в принцип правдоподобия!
JSK
Да, может быть, но я показал, как это следует из байесовских принципов.
kjetil b halvorsen
@kjetilbhalvorsen Спасибо за вдумчивый ответ! Одна вещь, которую я все еще смущен, - то, почему вероятность распределения Бернулли не включает биномиальный коэффициент. Ваш ответ проясняет, почему это не имеет значения, но я не понимаю, почему это исключено из вероятности в первую очередь.
jvans
@jvans: Это потому, что биномиальный коэффициент не зависит от неизвестного параметра, поэтому не может влиять на форму функции правдоподобия
kjetil b halvorsen
12

Это в основном означает, что имеет значение только относительное значение PDF. Например, стандартный нормальный (гауссовский) PDF: , ваша книга говоритчто они могли бы использоватьг(х)=е-х2/2вместо этого, потому что они не заботятся о масштабе, то естьс=1f(x)=12πex2/2g(x)=ex2/2 .c=12π

Это происходит потому, что они максимизируют функцию правдоподобия, а и g ( x ) будут иметь одинаковый максимум. Следовательно, максимум е - х 2 / 2 будет такой же , как F ( х ) . Таким образом, они не беспокоятся о масштабе.cg(x)g(x)ex2/2f(x)

Аксакал
источник
6

Я не могу объяснить смысл цитаты, но для максимального правдоподобия оценки, это не имеет значения , выбираем ли мы найти максимум правдоподобия функции (рассматриваемую как функцию & thetas или максимум в L ( x ; θ ), где a - некоторая постоянная. Это потому, что нас интересует не максимальное значение L ( x ; θ ), а значение θ ML, где этот максимум имеет место, и оба L ( xL(x;θ)θaL(x;θ)aL(x;θ)θML и A L ( x ; θ ) достигают своего максимального значения при одном и том же θ ML . Таким образом, мультипликативные константы можно игнорировать. Аналогично, мы могли бы рассмотреть любую монотонную функцию g ( ) (например, логарифм) функции правдоподобия L ( x ; θ ) , определить максимум g ( L ( x ; θ ) ) и вывести значение θ MLL(x;θ)aL(x;θ)θMLg()L(x;θ)g(L(x;θ))θMLиз этого. Для логарифма мультипликативная константа становится аддитивной константой ln ( a ), и это тоже можно игнорировать в процессе нахождения местоположения максимума: ln ( a ) + ln ( L ( x ; θ ) максимизируется при та же точка, что и ln ( L ( x ; θ ) .aln(a)ln(a)+ln(L(x;θ)ln(L(x;θ)

Обращаясь к оценке максимальной апостериорной вероятности (MAP), рассматривается как реализация случайной величины Θ с априорной функцией плотности f Θ ( θ ) , данные x рассматриваются как реализация случайной величины X , и вероятность функция считается значение условной плотности ф X | & thetas ; ( х | & thetas ; = θ ) из х кондиционированной на & thetas ; = θθΘfΘ(θ)xXfXΘ(xΘ=θ)XΘ=θ; указанная функция условной плотности оценивается в . Апостериорная плотность thetas ; является F & thetas | Х ( & thetas ; | х ) = е X | & thetas ; ( х | & thetas ; = & thetas ; ) ф & thetas ; ( & thetas ; )xΘ в котором мы распознаем числитель какобъединенную плотностьfX,Θ(x,θ)данных и оцениваемого параметра. ТочкаθMAPгде еthetas|X(θ|х)достигает своего максимального значенияявляется оценка МАПthetas, и, используя те же аргументы,в пункте, мы видимчто мы можем игнорировать[еX(х)]-1на правой стороне

(1)fΘX(θx)=fXΘ(xΘ=θ)fΘ(θ)fX(x)
fX,Θ(x,θ)θMAPfΘX(θx)θ[fX(x)]1 как мультипликативную константу так же, как мы можем игнорировать мультипликативные константыкак в f XΘ ( xΘ = θ ), так и в f Θ ( θ ) . Точно так же, когда используются логарифмические правдоподобия, мы можем игнорировать аддитивные константы.(1) fXΘ(xΘ=θ)fΘ(θ)
Дилип Сарватэ
источник
Эта линия мышления может быть сделано с помощью Байеса также: Если положить или с L в Байеса теорема не имеет значения, то отменит поэтому задний такой же. LaLa
kjetil b halvorsen
5

С точки зрения непрофессионала, вы часто будете искать максимальную вероятность, и и k f ( x ) имеют одинаковые критические точки.f(x)kf(x)

Sergio
источник
3
f(x)f(x)+2
Пожалуйста, как пишет Алекос Пападопулос в своем ответе, «вероятность - это прежде всего совместная функция плотности вероятности». Из-за предположения iid для случайных выборок, что объединенная функция является продуктом простых функций плотности, поэтому мультипликативные факторы действительно возникают, а сложения - нет.
Серхио
1
Совместная функция является таким продуктом тогда и только тогда, когда данные независимы. Но MLE распространяется на зависимые переменные, поэтому аргумент продукта кажется неубедительным.
whuber
1

argmax

Могут быть необычные обстоятельства, когда вам придется максимизировать вероятность, зависящую от потолка, и тогда вам следует «помнить», чтобы включить любые константы в расчет его значения.

Кроме того, вы можете выполнять тесты выбора моделей для не вложенных моделей, используя значение вероятности в процессе, и поскольку модели не являются вложенными, две вероятности будут иметь разные константы.

Помимо этого, предложение

«Потому что вероятность определяется только с точностью до мультипликативной константы пропорциональности (или аддитивной константы для логарифмической вероятности)»

это неправильно , потому что вероятность является первым совместная функция плотности вероятности , а не просто «любой» целевая функция будет максимальным.

Алекос Пападопулос
источник
3
θθ
3
L(θx)=f(xθ).
11
1
@heropup Я уже писал, что он не обязательно интегрируется в единицу в пространстве параметров, и поэтому сразу же его нельзя рассматривать как «функцию плотности», когда он рассматривается как «функция параметров».
Алекос Пападопулос
1
Да, я знаю. Я хочу сказать, что фраза «функция правдоподобия - это функция плотности, рассматриваемая как функция параметров» сама по себе сбивает с толку. Было бы точнее сказать что-то вроде: «Функция правдоподобия является функцией параметров для фиксированной выборки и эквивалентна (или пропорциональна) плотности соединения в пространстве выборки».
heropup
1
L(xθ)f(θ)Lf(θ)
Дилип Сарвате