Функция правдоподобия , определенные как вероятность события (набор данных х ) как функция от параметров модели thetas ;Exθ
L (θ;x)∝ P (Событие E; θ ) = P ( соблюдая x ; θ ) .
Поэтому нет предположения о независимости наблюдений. В классическом подходе нет определения независимости параметров, поскольку они не являются случайными величинами; некоторые связанные понятия могут быть идентифицируемостью , ортогональностью параметров и независимостью оценок максимального правдоподобия (которые являются случайными величинами).
Несколько примеров,
(1). Дискретный случай . является образец (независимый) дискретных наблюдений с P ( наблюдения х J ; & thetas ; ) > 0 , тоx=(x1,...,xn)P(observing xj;θ)>0
L(θ;x)∝∏j=1nP(observing xj;θ).
В частности, если , с известным N , имеемИксJ∼ бином ( N,θ)N
L(θ;x)∝∏j=1nθxj(1−θ)N−xj.
(2). Непрерывное приближение . Пусть быть образцом из непрерывного случайной величины X , с распределением F и плотностью F , с измерением ошибки е , это, вы наблюдаете множество ( х J - ε , х J + ϵ ) . потомx=(x1,...,xn)XFfϵ(xj−ϵ,xj+ϵ)
L(θ;x)∝∏j=1nP[observing (xj−ϵ,xj+ϵ);θ]=∏j=1n[F(xj+ϵ;θ)−F(xj−ϵ;θ)]
При мало, это может быть аппроксимировано ( с использованием среднего значения теоремы) путемϵ
L(θ;x)∝∏j=1nf(xj;θ)
Для примера с нормальным случаем взгляните на это .
(3). Зависимая и марковская модель . Предположим , что представляет собой набор наблюдений , возможно , зависимых и пусть F быть совместной плотности х , тоx=(x1,...,xn)fx
L(θ;x)∝f(x;θ).
Если дополнительно выполнено свойство Маркова , то
L(θ;x)∝f(x;θ)=f(x1;θ)∏j=1n−1f(xj+1|xj;θ).
Take also a look at this.
(+1) Very good question.
Minor thing, MLE stands for maximum likelihood estimate (not multiple), which means that you just maximize the likelihood. This does not specify that the likelihood has to be produced by IID sampling.
If the dependence of the sampling can be written in the statistical model, you just write the likelihood accordingly and maximize it as usual.
The one case worth mentioning when you do not assume dependence is that of the multivariate Gaussian sampling (in time series analysis for example). The dependence between two Gaussian variables can be modelled by their covariance term, which you incoroporate in the likelihood.
To give a simplistic example, assume that you draw a sample of size2 from correlated Gaussian variables with same mean and variance. You would write the likelihood as
wherez is
This is not the product of the individual likelihoods. Still, you would maximize this with parameters(μ,σ,ρ) to get their MLE.
источник
Of course, Gaussian ARMA models possess a likelihood, as their covariance function can be derived explicitly. This is basically an extension of gui11ame's answer to more than 2 observations. Minimal googling produces papers like this one where the likelihood is given in the general form.
Another, to an extent, more intriguing, class of examples is given by multilevel random effect models. If you have data of the form
источник