Запись в Википедии о вероятности кажется неоднозначной

26

У меня есть простой вопрос относительно «условной вероятности» и «вероятности». (Я уже рассмотрел этот вопрос здесь, но безрезультатно.)

Это начинается со страницы Википедии о вероятности . Они говорят это:

Вероятность набора значений параметров, & θ , учитывая исходы x , равна вероятности наблюдаемых результатов этих данных тех значения параметров, то есть

L(θx)=P(xθ)

Большой! Итак, на английском я читаю это как: «Вероятность того, что параметры, равные тета, для данных X = x (левая сторона) равна вероятности того, что данные X равны x, при условии, что параметры равны тета ". ( Жирный мой для акцента ).

Тем не менее, не менее чем через 3 строки на той же странице в статье в Википедии говорится:

Пусть X - случайная величина с дискретным распределением вероятности p зависящим от параметра θ . Тогда функция

L(θx)=pθ(x)=Pθ(X=x),

рассматривается как функция от θ , называется функцией правдоподобия ( θ , учитывая результат x случайной величины X ). Иногда вероятность значения x of X для значения параметра θ записывается как P(X=xθ) ; часто пишется как P(X=x;θ) чтобы подчеркнуть, что это отличается от L(θx)которая не является условной вероятностью , потому что θ является параметром, а не случайной величиной.

( Жирный мой для акцента ). Итак, в первой цитате нам буквально сообщают об условной вероятности P(xθ) , но сразу после этого нам говорят, что это на самом деле НЕ условная вероятность, и на самом деле ее следует записать как P(X=x;θ) ?

Итак, какой это? На самом ли деле вероятность означает условную вероятность, аля первая цитата? Или это означает простую вероятность аля вторая цитата?

РЕДАКТИРОВАТЬ:

Основываясь на всех полезных и проницательных ответах, которые я получил к настоящему времени, я резюмировал свой вопрос - и мое понимание до такой степени:

  • По- английски мы говорим, что: «Вероятность зависит от параметров, дайте наблюдаемые данные». В математике мы записываем это как: .L(Θ=θX=x)
  • Вероятность не вероятность.
  • Вероятность не является распределением вероятностей.
  • Вероятность не является вероятностной массой.
  • Вероятность того, однако, в английском языке : «произведение вероятностных распределений, (непрерывный случай), или продукт вероятностных масс, (дискретный случай), в которой , и параметрироваться от Θ = θ .» В математике мы записываем это так: L ( Θ = θ X = x ) = f ( X = x ; Θ = θ ) (непрерывный случай, где f - PDF) и как L ( Θ =X=xΘ=θL(Θ=θX=x)=f(X=x;Θ=θ)f
    (дискретный случай, где P - масса вероятности). Вывод здесь заключается в том, чтони при каких условиях здесь вообщене существует условной вероятности вступления в игру.L(Θ=θX=x)=P(X=x;Θ=θ)P
  • В теореме Байеса имеем: . В разговорной речи нам говорят, что «P(X=xΘ=θ)является вероятностью», однакоэто не так, посколькуΘможет быть реальной случайной величиной. Поэтому, что мы можем правильно сказать, так это то, что этот терминP(X=xΘ=θ)просто «подобен» вероятности. (?) [В этом я не уверен.]P(Θ=θX=x)=P(X=xΘ=θ) P(Θ=θ)P(X=x)P(X=xΘ=θ)ΘP(X=xΘ=θ)

РЕДАКТИРОВАТЬ II:

Основываясь на ответе @amoebas, я нарисовал его последний комментарий. Я думаю, что это довольно разъясняет, и я думаю, что это проясняет главное утверждение, которое я имел. (Комментарии к изображению).

введите описание изображения здесь

РЕДАКТИРОВАТЬ III:

Я также добавил комментарии @amoebas к байесовскому случаю:

введите описание изображения здесь

Creatron
источник
У вас уже есть два хороших ответа, но проверьте также stats.stackexchange.com/q/112451/35989
Тим
@Tim Отличная ссылка спасибо! К сожалению, мне все еще неясно, какие конкретные вопросы у меня возникают в отношении вероятности и условной вероятности (?), Которая, кажется, вызывает в воображении. По этому мне пока неясно. : - /
Creatron
2
«Учитывая это» не всегда означает условную вероятность. Иногда эта фраза является просто попыткой указать, какие символы должны быть зафиксированы в расчетах или концептуально.
whuber
2
Некоторые люди действительно используют такое типографское соглашение с точкой с запятой. Существует множество соглашений: подписка, надстрочный индекс и т. Д. Вам часто приходится выяснять, что кто-то имеет в виду из контекста или его текстовых описаний того, что он делает.
whuber
4
Когда является случайной величиной (то есть значением, которое, как считается, возникает из случайной величины Θ ), ничего в определении вероятности не меняется. Это все еще вероятность. Логично, что это ничем не отличается от того, что говорят, что голубая бабочка все еще остается бабочкой. Технически это поднимает вопросы о совместном распределении Θ и x . Очевидно, что это совместное распределение должно быть четко определено и обладать определенными «условиями регулярности», прежде чем вы сможете идентифицировать вероятность с условной вероятностью. θΘΘx
whuber

Ответы:

18

Я думаю, что это в значительной степени ненужное расщепление волос.

Условная вероятность для x при заданном y определяется для двух случайных величин X и Y, принимающих значения x и y . Но мы можем говорить о вероятности Р ( х | thetas ; ) от х заданных θ , где θ не является случайной величиной , а параметр.P(xy)P(X=xY=y)xyXYxyP(xθ)xθθ

Обратите внимание, что в обоих случаях могут использоваться один и тот же термин «данное» и одно и то же обозначение . Нет необходимости придумывать разные обозначения. Более того, то, что называется «параметром» и что называется «случайной величиной», может зависеть от вашей философии, но математика не меняется.P()

The first quote from Wikipedia states that L(θx)=P(xθ) by definition. Here it is assumed that θ is a parameter. The second quote says that L(θx) is not a conditional probability. This means that it is not a conditional probability of θ given x; and indeed it cannot be, because θ is assumed to be a parameter here.

In the context of Bayes theorem

P(ab)=P(ba)P(a)P(b),
both a and b are random variables. But we can still call P(ba) "likelihood" (of a), and now it is also a bona fide conditional probability (of b). This terminology is standard in Bayesian statistics. Nobody says it is something "similar" to the likelihood; people simply call it the likelihood.

Note 1: In the last paragraph, P(ba) is obviously a conditional probability of b. As a likelihood L(ab) it is seen as a function of a; but it is not a probability distribution (or conditional probability) of a! Its integral over a does not necessarily equal 1. (Whereas its integral over b does.)

Note 2: Sometimes likelihood is defined up to an arbitrary proportionality constant, as emphasized by @MichaelLew (because most of the time people are interested in likelihood ratios). This can be useful, but is not always done and is not essential.


See also What is the difference between "likelihood" and "probability"? and in particular @whuber's answer there.

I fully agree with @Tim's answer in this thread too (+1).

amoeba says Reinstate Monica
источник
1
So a likelihood, can in fact, be equal to, a conditional probability (as per the last paragraph), correct? This is what I am trying to square. For example in one of the first answers, we have: "First, likelihood cannot be generally equal to a the probability of the data given the parameter value, as likelihood is only defined up to a proportionality constant. Fisher was explicit about that when he first formalised likelihood (Fisher, 1922). " This is what I am trying to square. Is the likelihood - can the likelihood - ever be equal to a conditional probability?
Creatron
@Creatron I added two Notes to my answer. Do they clarify it?
amoeba says Reinstate Monica
1
In regards to Note1: Since P(b|a) is a conditional probability distribution, and since L(a|b) cannot be a probability distribution, then it seems to me that the most 'correct' way we can write the equation for likelihood in this context is: L(a|b)P(b|a), and not as, L(a|b)=P(b|a). (I know that in optimization this doesn't make a difference, but I am trying to nail down the correctness of what the likelihood is here). Is my understanding right? Thank you for your patience.
Creatron
1
abP(b|a)baL(a|b)aba because it does not sum to one. This has nothing to do with the issue or proportionality (which is my Note 2). I think we can write L(a|b)=P(b|a).
amoeba says Reinstate Monica
1
Amoeba, thank you!! You have been instrumental in un-knotting those concepts for me, thank you so much!! :) I just "extended" the diagram to the Bayesian case, and would appreciate your feedback to make sure I have understood that correctly as well. I have also accepted your answer. Once again, massively gracious!
Creatron
10

You already got two nice answers, but since it still seems unclear for you let me provide one. Likelihood is defined as

L(θ|X)=P(X|θ)=ifθ(xi)

so we have likelihood of some parameter value θ given the data X. It is equal to product of probability mass (discrete case), or density (continuous case) functions f of X parametrized by θ. Likelihood is a function of parameter given the data. Notice that θ is a parameter that we are optimizing, not a random variable, so it does not have any probabilities assigned to it. This is why Wikipedia states that using conditional probability notation may be ambiguous, since we are not conditioning on any random variable. On another hand, in Bayesian setting θ is a random variable and does have distribution, so we can work with it as with any other random variable and we can use Bayes theorem to calculate the posterior probabilities. Bayesian likelihood is still likelihood since it tells us about likelihood of data given the parameter, the only difference is that the parameter is considered as random variable.

If you know programming, you can think of likelihood function as of overloaded function in programming. Some programming languages allow you to have function that works differently when called using different parameter types. If you think of likelihood like this, then by default if takes as argument some parameter value and returns likelihood of data given this parameter. On another hand, you can use such function in Bayesian setting, where parameter is random variable, this leads to basically the same output, but that can be understood as conditional probability since we are conditioning on random variable. In both cases the function works the same, just you use it and understand it a little bit differently.

// likelihood "as" overloaded function
Default Likelihood(Numeric theta, Data X) {
    return f(X, theta); // returns likelihood, not probability
}

Bayesian Likelihood(RandomVariable theta, Data X) {
    return f(X, theta); // since theta is r.v., the output can be
                        // understood as conditional probability
}

Moreover, you rather won't find Bayesians who write Bayes theorem as

P(θ|X)L(θ|X)P(θ)

...this would be very confusing. First, you would have θ|X on both sides of equation and it wouldn't have much sense. Second, we have posterior probability to know about probability of θ given data (i.e. the thing that you would like to know in likelihoodist framework, but you don't when θ is not a random variable). Third, since θ is a random variable, we have and write it as conditional probability. The L-notation is generally reserved for likelihoodist setting. The name likelihood is used by convention in both approaches to denote similar thing: how probability of observing such data changes given your model and the parameter.

Tim
источник
Thank you Tim, this has been very helpful in my understanding. I have re-consolidated my question (see under "Edit") with this new knowledge. I believe everything I have now written there is true. The only holdout is the last point in the list on Bayes rule. If you could take a look I would appreciate that a lot. Thanks again, and have an upvote!
Creatron
1
@Creatron I added a sentence commenting your last bullet to my answer, hope it is now clear -- if not please say so.
Tim
(1/2) Your edits on the overloaded operator helps me a lot. In this case, it seems to me that we can say this: 1) Under the 'mathematically pure' (historical case in the sense of what Fisher probably meant), case, where θ is not a random variable, and instead is a parameter of a PDF, (or a function of a parameter?), then the likelihood is equal to the probability of P(X=x;θ). The likelihood function is NOT a probability distribution, sure, but it is EQUAL TO the probability of P(X=x;θ). Is this correct?
Creatron
(2/2) In the second case however, (2), when the context is a Bayesian setting, then in this case our parameters are a r.v, and so in this case the likelihood IS in fact, a conditional probability distribution, of P(b|a), written however, as L(a|b). So in the first 'default' case, the likelihood was definitely NOT a probability distribution, (but was equal to a probability value), however in the second case, the likelihood IS in fact a probability distribution, and that probability distribution is a conditional probability, written as P(b|a). Is this correct?
Creatron
2
Thank you Tim, even though I accepted @amoeba 's answer, your post truly helped me understand this varied and deep concept, esp your analogy to overloaded functions. Thank you again!
Creatron
7

There are several aspects of the common descriptions of likelihood that are imprecise or omit detail in a way that engenders confusion. The Wikipedia entry is a good example.

First, likelihood cannot be generally equal to a the probability of the data given the parameter value, as likelihood is only defined up to a proportionality constant. Fisher was explicit about that when he first formalised likelihood (Fisher, 1922). The reason for that seems to be the fact that there is no restraint on the integral (or sum) of a likelihood function, and the probability of observing data x within a statistical model given any value of the parameter(s) is strongly affected by the precision of the data values and of the granularity of specification of the parameter values.

Во-вторых, более полезно думать о функции вероятности, чем об отдельных вероятностях. Функция правдоподобия является функцией значения (й) параметра модели, что очевидно из графика функции правдоподобия. Такой график также позволяет легко увидеть, что вероятности позволяют ранжировать различные значения параметра (ов) в соответствии с тем, насколько хорошо модель прогнозирует данные, когда установлены эти значения параметров. Исследование функций правдоподобия делает, на мой взгляд, роли данных и значений параметров гораздо более понятными, чем размышление о различных формулах, приведенных в исходном вопросе.

Использование отношения пар правдоподобий в функции правдоподобия в качестве относительной степени поддержки, предлагаемой наблюдаемыми данными для значений параметров (в рамках модели), позволяет обойти проблему неизвестных констант пропорциональности, поскольку эти константы в соотношении аннулируются. Важно отметить, что константы не обязательно будут аннулироваться в соотношении правдоподобий, которые исходят из отдельных функций правдоподобия (т. Е. Из разных статистических моделей).

Наконец, полезно четко указать роль статистической модели, поскольку вероятности определяются статистической моделью, а также данными. Если вы выбираете другую модель, вы получаете другую функцию правдоподобия и можете получить другую неизвестную константу пропорциональности.

Thus, to answer the original question, likelihoods are not a probability of any sort. They do not obey Kolmogorov's axioms of probability, and they play a different role in statistical support of inference from the roles played by the various types of probability.

  1. Fisher (1922) On the mathematical foundations of statistics http://rsta.royalsocietypublishing.org/content/222/594-604/309
Michael Lew
источник
1
The first line in your post summarizes my frustration with this topic. At any rate, some questions based on your post, sir: 1) The bayesian formula is often written as P(a|b)=P(b|a)P(a)P(b), where (we are told) that P(b|a) is a 'likelihood', and that P(a) is a 'prior'. If likelihood is not a probability, then is this statement false? 2) My motivation for the question is in the context of deriving a maximum likelihood estimator, which inevitably links a likelihood to a (seemingly) concrete (conditional) probability. Given those two examples, how then to reconcile those? Thanks.
Creatron
@Creatron 1. No, the statement is not necessarily wrong. The likelihood function is how the evidence enters the calculation, and combining it with a probability distribution yields a probability distribution. In that context the unknown proportionality constant is not a problem because after the product of the likelihood function and prior probability distribution is arbitrarily scaled so that it has the correct unity integral (or sum).
Michael Lew
2. In the context of finding a maximum likelihood estimate it makes no difference whether you use a conditional probability or a likelihood, as they will be proportional over the entire range of parameter values.
Michael Lew
1
Can we then say that while L(θ|x)=P(x|θ) is technically wrong, L(θ|x)P(x|θ) is technically and formally correct? Is that all there is to it?
Creatron
Thank you Micheal Lew, your post has really helped in my understanding of this problem, much appreciated.
Creatron
7

Wikipedia should have said that L(θ) is not a conditional probability of θ being in some specified set, nor a probability density of θ. Indeed, if there are infinitely many values of θ in the parameter space, you can have

θL(θ)=,
for example by having L(θ)=1 regardless of the value of θ, and if there is some standard measure dθ on the parameter space Θ, then in the same way one can have
ΘL(θ)dθ=.
An essential point that the article should emphasize is that L is the function
θP(xθ) and NOT xP(xθ).
Michael Hardy
источник
2
+1 and thanks for the edit of my answer; I forgot that \mid exists.
amoeba says Reinstate Monica
@amoeba : Glad to help.
Michael Hardy
3

"I read this as: "The likelihood of parameters equaling theta, given data X = x, (the left-hand-side), is equal to the probability of the data X being equal to x, given that the parameters are equal to theta". (Bold is mine for emphasis)."

It's the probability of the set of observations given the parameter is theta. This is perhaps confusing because they write P(x|θ) but then L(θ|x).

The explanation (somewhat objectively) implies that θ is not a random variable. It could, for example, be a random variable with some prior distribution in a Bayesian setting. The point however, is that we suppose θ=θ, a concrete value and then make statements about the likelihood of our observations. This is because there is only one true value of θ in whatever system we're interested in.

Alex R.
источник
Ok, so I then conclude based on this that i) The first image on the wikipedia is wrong, because (to my knowledge at least), P(a|b) is always read as a conditional probability, and what they SEEM to want to say, is that it's not - or ever - "probability of the data GIVEN this theta", it's rather, "probability of the data, PARAMETERIZED by this theta". Is this correct? Thanks. (To summarize, it seems that L(θ|x)=P(X=x;θ).
Creatron
This however is problematic, because in a Bayesian formulation, P(a|b)=P(b|a) P(a)P(b), the P(b|a) we are told is in fact the likelihood, (and is in fact a conditional probability). However this contradicts what we just said, and also contradicts what the wiki says in image 2.
Creatron
L(θ|x):=P(x|θ). The θ is to the left of x in L to emphasize that we think of L as a function of θ, the parameter we wish to optimize. So there's no contradiction.
Алекс Р.
Is the right-hand-side of L(θ|x) := P(x|θ) a conditional probability?
Creatron
Это имеет больше смысла для меня сейчас. Спасибо за вашу первоначальную помощь, @Alex.
Creatron