Почему именно используется наблюдаемая информация Фишера?

17

В стандартной настройке максимального правдоподобия (iid sample из некоторого распределения с плотностью f y ( y | θ 0 )) и в случае правильно заданной модели информация Фишера задается какY1,,Ynfy(y|θ0

I(θ)=Eθ0[2θ2lnfy(θ)]

где ожидание берется относительно истинной плотности, которая генерировала данные. Я прочитал, что наблюдаемая информация Фишера

J^(θ)=2θ2lnfy(θ)

используется первично, потому что интеграл, участвующий в вычислении (ожидаемой) информации Фишера, в некоторых случаях может оказаться невозможным. Что меня смущает, так это то, что даже если интеграл выполним, нужно рассчитывать на истинную модель, которая включает неизвестное значение параметра . Если это так , то оказывается , что , не зная θ 0 , невозможно вычислить I . Это правда?θ0θ0I

user2249626
источник

Ответы:

13

У вас есть четыре quanties здесь: истинный параметр & , последовательная оценка & thetas , ожидаемая информация I ( θ ) при & thetas и наблюдаемая информация J ( θ ) при & thetas . Эти величины асимптотически эквивалентны, но, как правило, они используются.θ0θ^I(θ)θJ(θ)θ

  1. Наблюдаемая информация сходится по вероятности к ожидаемой информации I(thetas0)=Еthetas0[2

    J(θ0)=1Ni=1N2θ02lnf(yi|θ0)
    когдаYпредставляет собой IID выборка из F(thetas0). ЗдесьЕthetas0(х)указываетожидание ш / г / т распределение индексируетсяthetas0:хF(х|thetas0)дх. Эта сходимость имеет место из-за закона больших чисел, поэтому предположение, чтоYfθ
    I(θ0)=Eθ0[2θ02lnf(y|θ0)]
    Yf(θ0)Eθ0(x)θ0xf(x|θ0)dx здесь решающее значение.Yf(θ0)
  2. Когда вы получили оценку & thetas , что сходится по вероятности к истинному параметру θ 0 (т.е. соответствует) , то вы можете заменить его на любое место вы видите θ - выше, в основном из - за непрерывную теорему отображения * , и все из схождений продолжают удерживать.θ^θ0θ0

На самом деле, это кажетсянемного тонким.*

замечание

Как вы и предполагали, с наблюдаемой информацией обычно легче работать, потому что дифференцирование легче, чем интеграция, и вы, возможно, уже оценили ее в ходе некоторой числовой оптимизации. При некоторых обстоятельствах (нормальное распределение) они будут одинаковыми.

Статья Эфрона и Хинкли (1978) «Оценка точности оценки максимального правдоподобия: наблюдаемая и ожидаемая информация о Фишере» приводит аргумент в пользу наблюдаемой информации для конечных выборок.

Андрей М
источник
4

Были некоторые симуляционные исследования, которые, кажется, подтверждают теоретические наблюдения Эфрона и Хинкли (которые упоминаются в ответе Эндрю), вот одно, что я знаю не случайно: Мальдонадо, Г. и Гренландия, С. (1994). Сравнение эффективности основанных на модели доверительных интервалов, когда правильная форма модели неизвестна. Эпидемиология, 5, 171-182. Я не видел никаких исследований, которые конфликтуют. Интересно, что известные мне стандартные GLM-пакеты используют ожидаемую информацию для вычисления интервалов Вальда. Конечно, это не проблема, когда (как в GLM, линейных по естественному параметру) наблюдаемая и ожидаемая информационные матрицы равны.

Сандер Гренландия
источник