Дело в том, что иногда разные модели (для одних и тех же данных) могут приводить к функциям правдоподобия, которые отличаются мультипликативной константой, но содержание информации должно быть одно и то же. Пример:
Мы моделируем независимых экспериментов Бернулли, которые приводят к данным , каждый с распределением Бернулли с параметром (вероятности) . Это приводит к функции правдоподобия
Или мы можем суммировать данные по биномиально распределенной переменной , который имеет биномиальное распределение, приводящее к функции правдоподобия
которая в зависимости от неизвестного параметра пропорциональна предыдущей функции правдоподобия , Две функции правдоподобия явно содержат одну и ту же информацию и должны приводить к одним и тем же выводам!nX1,…,Xnp∏i=1npxi(1−p)1−xi
Y=X1+X2+⋯+Xn(ny)py(1−p)n−y
p
И действительно, по определению они считаются одной и той же вероятностной функцией.
Другая точка зрения: обратите внимание, что когда функции правдоподобия используются в теореме Байеса, как это необходимо для байесовского анализа, такие мультипликативные константы просто отменяются! поэтому они явно не имеют отношения к байесовскому выводу. Кроме того, он будет отменять при расчете отношений правдоподобия, как это используется в тестах оптимальных гипотез (лемма Неймана-Пирсона). И это не будет влиять на значение оценок максимального правдоподобия. Таким образом, мы можем видеть, что в большинстве частых выводов это не может играть роль.
Мы можем спорить с еще одной точки зрения. Функция вероятности Бернулли (здесь и далее мы используем термин «плотность») на самом деле представляет собой плотность по отношению к счетной мере, то есть меру неотрицательных целых чисел с массой один для каждого неотрицательного целого числа. Но мы могли бы определить плотность относительно некоторой другой доминирующей меры. В этом примере это будет казаться (и является) искусственным, но в больших пространствах (функциональных пространствах) это действительно фундаментально! Давайте в целях иллюстрации воспользуемся определенным геометрическим распределением, написанным , с , , и скоро. Тогда плотность распределения Бернулли относительноλλ(0)=1/2λ(1)=1/4λ(2)=1/8λе А , ( х ) = р х ( 1 - р ) 1 - х ⋅ 2 х + 1 P ( X = x ) = f λ ( x ) ⋅ λзадается как
что означает, что
С этой новой, доминирующей мерой функция правдоподобия становится (с обозначениями сверху)
обратите внимание на дополнительный множитель . Таким образом, при изменении доминирующей меры, используемой в определении функции правдоподобия, возникает новая мультипликативная константа, которая не зависит от неизвестного параметраfλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i=1npxi(1−p)1−xi2xi+1=py(1−p)n−y2y+n
2y+npи явно не имеет значения. Это еще один способ увидеть, как мультипликативные константы должны быть неактуальными. Этот аргумент может быть обобщен с использованием производных Радона-Никодима (так как приведенный выше аргумент является примером.)
Это в основном означает, что имеет значение только относительное значение PDF. Например, стандартный нормальный (гауссовский) PDF: , ваша книга говоритчто они могли бы использоватьг(х)=е-х2/2вместо этого, потому что они не заботятся о масштабе, то естьс=1f(x)=12π√e−x2/2 g(x)=e−x2/2 .c=12π√
Это происходит потому, что они максимизируют функцию правдоподобия, а и g ( x ) будут иметь одинаковый максимум. Следовательно, максимум е - х 2 / 2 будет такой же , как F ( х ) . Таким образом, они не беспокоятся о масштабе.c⋅g(x) g(x) e−x2/2 f(x)
источник
Я не могу объяснить смысл цитаты, но для максимального правдоподобия оценки, это не имеет значения , выбираем ли мы найти максимум правдоподобия функции (рассматриваемую как функцию & thetas или максимум в L ( x ; θ ), где a - некоторая постоянная. Это потому, что нас интересует не максимальное значение L ( x ; θ ), а значение θ ML, где этот максимум имеет место, и оба L ( xL(x;θ) θ aL(x;θ) a L(x;θ) θML
и A L ( x ; θ ) достигают своего максимального значения при одном и том же
θ ML . Таким образом, мультипликативные константы можно игнорировать. Аналогично, мы могли бы рассмотреть любую монотонную функцию g ( ⋅ )
(например, логарифм) функции правдоподобия L ( x ; θ ) , определить максимум g ( L ( x ; θ ) ) и вывести значение
θ MLL(x;θ) aL(x;θ) θML g(⋅) L(x;θ) g(L(x;θ)) θML из этого. Для логарифма мультипликативная константа
становится аддитивной константой ln ( a ), и это тоже можно игнорировать в процессе нахождения местоположения максимума:
ln ( a ) + ln ( L ( x ; θ )
максимизируется при та же точка, что и ln ( L ( x ; θ ) .a ln(a) ln(a)+ln(L(x;θ) ln(L(x;θ)
Обращаясь к оценке максимальной апостериорной вероятности (MAP), рассматривается как реализация случайной величины Θ с априорной функцией плотности f Θ ( θ ) , данные x рассматриваются как реализация случайной величины X , и вероятность функция считается значение условной плотности ф X | & thetas ; ( х | & thetas ; = θ ) из х кондиционированной на & thetas ; = θθ Θ fΘ(θ) x X fX∣Θ(x∣Θ=θ) X Θ=θ ; указанная функция условной плотности оценивается в . Апостериорная плотность thetas ; является
F & thetas | Х ( & thetas ; | х ) = е X | & thetas ; ( х | & thetas ; = & thetas ; ) ф & thetas ; ( & thetas ; )x Θ
в котором мы распознаем числитель какобъединенную плотностьfX,Θ(x,θ)данных и оцениваемого параметра. ТочкаθMAPгде
еthetas|X(θ|х)достигает своего максимального значенияявляется оценка МАПthetas, и, используя те же аргументы,в пункте, мы видимчто мы можем игнорировать[еX(х)]-1на правой стороне
источник
С точки зрения непрофессионала, вы часто будете искать максимальную вероятность, и и k f ( x ) имеют одинаковые критические точки.f(x) kf(x)
источник
Могут быть необычные обстоятельства, когда вам придется максимизировать вероятность, зависящую от потолка, и тогда вам следует «помнить», чтобы включить любые константы в расчет его значения.
Кроме того, вы можете выполнять тесты выбора моделей для не вложенных моделей, используя значение вероятности в процессе, и поскольку модели не являются вложенными, две вероятности будут иметь разные константы.
Помимо этого, предложение
это неправильно , потому что вероятность является первым совместная функция плотности вероятности , а не просто «любой» целевая функция будет максимальным.
источник