Интуитивное объяснение информации Фишера и границы Крамера-Рао

59

Мне не нравится информация Фишера, что она измеряет и чем она полезна. Кроме того, для меня не очевидны отношения с Крамером-Рао.

Может ли кто-нибудь дать интуитивное объяснение этих понятий?

бесконечность
источник
1
Есть ли в статье в Википедии что-нибудь, что вызывает проблемы? Он измеряет количество информации, которую наблюдаемая случайная величина несет с неизвестным параметром от которого зависит вероятность , а ее обратная величина является нижней границей Крамера-Рао для дисперсии несмещенной оценки . XθXθ
Генри
2
Я понимаю это, но мне не очень удобно с этим. Мол, что именно здесь означает «количество информации». Почему отрицательное ожидание квадрата частной производной плотности измеряет эту информацию? Откуда берется выражение и поэтому я надеюсь получить некоторую интуицию по этому поводу.
Бесконечность
@Infinity: оценка - это пропорциональная скорость изменения вероятности наблюдаемых данных при изменении параметра, что очень полезно для вывода. Фишер сообщает информацию о дисперсии (с нулевым значением). Математически это ожидание квадрата первой частной производной логарифма плотности, а также отрицание ожидания второй частной производной логарифма плотности.
Генри

Ответы:

32

Здесь я объясняю, почему асимптотическая дисперсия оценки максимального правдоподобия является нижней границей Крамера-Рао. Надеюсь, это даст некоторое представление об актуальности информации Фишера.

Статистический вывод осуществляется с использованием функции правдоподобия которую вы строите из данных. Точечная оценка - это значение, которое максимизирует . Оценщик является случайной величиной, но помогает понять, что функция правдоподобия является "случайной кривой".θ L ( θ ) θ L ( θ )L(θ)θ^L(θ)θ^ L(θ)

Здесь мы предполагаем, что данные взяты из распределения , и определяем вероятность L ( θ ) = 1f(x|θ)

L(θ)=1ni=1nlogf(xi|θ)

Параметр имеет свойство максимизировать значение «истинного» правдоподобия, . Тем не менее, «наблюдаемая» функция правдоподобия которая построена на основе данных, немного «отличается» от истинного правдоподобия. Тем не менее, как вы можете себе представить, с увеличением размера выборки «наблюдаемая» вероятность сходится к форме кривой истинного вероятности. То же самое относится и к производной вероятности по параметру : функция оценки . (Короче говоря, информация Фишера определяет, насколько быстро наблюдаемая функция оценки сходится к форме функции истинной оценки.E L ( θ ) L ( θ ) L /θθEL(θ)L(θ) L/θ

При большом размере выборки мы предполагаем, что наша оценка максимального правдоподобия очень близка к . Мы приближаемся к небольшой окрестности вокруг и чтобы функция правдоподобия была "локально квадратичной". ; & thetasthetas ; & thetas ;θ^θθθ^

Там, - это точка, в которой функция оценки пересекает начало координат. В этой небольшой области мы рассматриваем функцию оценки как линию , одну с наклоном и случайным пересечением в . Мы знаем из уравнения для линии, чтоθ^ L/θabθ

a(θ^θ)+b=0

или же

θ^=θb/a.

Из последовательности оценки MLE мы знаем, что

E(θ^)=θ

в пределе.

Следовательно, асимптотически

nVar(θ^)=nVar(b/a)

Оказывается, что наклон изменяется намного меньше, чем перехват, и асимптотически мы можем рассматривать функцию оценки как наличие постоянного наклона в небольшой окрестности вокруг . Таким образом, мы можем написатьθ

nVar(θ^)=1a2nVar(b)

Итак, каковы значения и ? Оказывается, из-за чудесного математического совпадения они представляют собой ту же самую величину (по модулю знака минус), как и информация Фишера.anVar(b)

a=E[2Lθ2]=I(θ)

nVar(b)=nVar[Lθ]=I(θ)

Таким образом,

nVar(θ^)=1a2nVar(b)=(1/I(θ)2)I(θ)=1/I(θ)
асимптотически : нижняя граница Крамера-Рао. (Показывает, что является нижней границей дисперсии несмещенной оценки, это другой вопрос.)1/I(θ)
charles.y.zheng
источник
2
Есть ли графическое представление части, где вы упоминаете, что функция правдоподобия является локально квадратичной?
Quirik
@quirik, рассмотрите возможность использования расширения Тейлора второго порядка вокруг theta_hat.
Иднавид
@ charles.y.zheng Это одно из самых интересных объяснений сцены.
Иднавид
13

Один из способов понять информацию о Фишере - это следующее определение:

I(θ)=X2f(x|θ)θ2dxXf(x|θ)2θ2log[f(x|θ)]dx

Информация о Фишере может быть записана таким образом, когда плотность дважды дифференцируема. Если выборочное пространство не зависит от параметра , то мы можем использовать интегральную формулу Лейбница, чтобы показать, что первый член равен нулю (дифференцируем обе стороны дважды, и вы получите ноль), а второй термин является «стандартным» определением. Я возьму случай, когда первый член равен нулю. Случаи, когда он не равен нулю, не слишком полезны для понимания информации Фишера.f(x|θ)XθXf(x|θ)dx=1

Теперь, когда вы делаете оценку максимального правдоподобия (вставьте здесь «условия регулярности»), вы устанавливаете

θlog[f(x|θ)]=0

И решить для . Таким образом, вторая производная говорит о том, как быстро меняется градиент, и в некотором смысле «как далеко» может отойти от MLE, не внося заметных изменений в правой части вышеприведенного уравнения. Еще один способ думать об этом - представить «гору», нарисованную на бумаге - это функция логарифмического правдоподобия. Решение приведенного выше уравнения MLE показывает, где находится пик этой горы как функция случайной величины . Вторая производная говорит вам, насколько крутая гора - что в некотором смысле говорит вам, как легко найти вершину горы. Информация Фишера берется из взятия ожидаемой крутизны пика, и поэтому она имеет некоторую интерпретацию «предварительных данных».θθx

Одна вещь, которую я до сих пор нахожу любопытной, заключается в том, насколько велика логарифмическая вероятность, а не насколько крутая монотонная функция вероятности (возможно, связана с «правильными» оценочными функциями в теории принятия решений? Или, может быть, с аксиомами согласованности энтропии?) ?).

Информация Фишера также «обнаруживается» во многих асимптотических анализах из-за того, что известно как приближение Лапласа. В основном это связано с тем, что любая функция с «хорошо округленным» одиночным повышением максимума до более высокой степени переходит в гауссову функцию (аналогично теореме о центральном пределе, но немного больше Генеральная). Поэтому, когда у вас большая выборка, вы эффективно находитесь в этой позиции и можете написать:exp(ax2)

f(data|θ)=exp(log[f(data|θ)])

И когда вы Тейлор расширите логарифмическую вероятность MLE:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)
и эта вторая производная логарифмического правдоподобия появляется (но в «наблюдаемой», а не в «ожидаемой» форме). Здесь обычно делается следующее приближение:

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

Что обычно означает хорошее приближение замены суммы интегралом, но для этого требуется, чтобы данные были независимыми. Таким образом, для больших независимых выборок (заданных ) вы можете видеть, что информация Фишера является переменной MLE для различных значений MLE.θ

probabilityislogic
источник
1
«Одна вещь, которую я до сих пор нахожу любопытной, заключается в том, насколько велика логарифмическая вероятность, а не какая крутая монотонная функция вероятности». Я уверен, что вы могли бы получить аналоги для информации Фишера с точки зрения других преобразований вероятности, но тогда вы не получите столь же аккуратного выражения для нижней границы Крамера-Рао.
charles.y.zheng
2

Это самая интуитивная статья, которую я когда-либо видел:

Нижняя граница Крамера-Рао по дисперсии: «Принцип неопределенности» Адама и Евы, Майкл Р. Пауэрс, Журнал Risk Finance, Vol. 7, № 3, 2006

Граница объясняется аналогией Адама и Евы в Эдемском саду, бросающих монету, чтобы увидеть, кто должен есть фрукты, и затем они спрашивают себя, насколько большой образец необходим для достижения определенного уровня точности в их оценке, и затем они обнаруживают эту связь ...

Хорошая история с глубоким посланием о реальности.

vonjd
источник
6
Спасибо за размещение этой ссылки. В конце концов, я был разочарован, обнаружив, что на самом деле это не объясняет CRLB. Он просто заявляет об этом, не давая никакого представления о том, почему это так, и дает лишь какой-то вызывающий, но в конечном счете бессмысленный язык, например «сжатие информации», чтобы объяснить это.
whuber
@ Whuber: Достаточно справедливо, я согласен, что это может погрузиться глубже, и конец немного резкий. Тем не менее, что мне нравится в этой статье, так это то, что действительно кажется естественным, что существует связь между размером выборки, средним значением выборки, законом больших чисел и что дисперсия выборки может быть уменьшена только до некоторой точки (то есть, что должна быть некоторая граница , которая оказывается вышеупомянутой). Это также дает понять, что это не какой-то неуловимый математический результат, а действительно утверждение о границах получения знания о реальности.
vonjd
2

Хотя приведенные выше объяснения очень интересны, и я с удовольствием ознакомился с ними, я чувствую, что природа нижней границы Крамера-Рао была лучше всего объяснена мне с геометрической точки зрения. Эта интуиция представляет собой краткое изложение концепции эллипсов концентрации из главы 6 книги Шарфа «Статистическая обработка сигналов» .

Рассмотрим любую непредвзятую оценку . Кроме того, предположим, что оценщик имеет гауссово распределение с ковариацией . В этих условиях распределение пропорционально:θθ^Σθ^

f(θ^)exp(12(θ^θ)TΣ1(θ^θ)) .

Теперь подумайте о контурах этого распределения для . Любое ограничение верхней границы вероятности (то есть ) приведет к эллипсоиду с центром в с фиксированным радиусом . Легко показать, что существует взаимно-однозначное соотношение между радиусом эллипсоида и желаемой вероятностью . Другими словами, близка к внутри эллипсоида, определяемого радиусом с вероятностьюthetas ; ∫ F ( & thetas ; ) d & thetas ; & le ; Р г & thetas ; г г Р г & thetas ; & thetas ;θR2θ^f(θ^)dθPrθrrPrθ^θP rrPr, Этот эллипсоид называется концентрационным эллипсоидом.

Учитывая приведенное выше описание, мы можем сказать следующее о CRLB. Среди всех объективных оценок CRLB представляет собой оценщик с ковариацией который для фиксированной вероятности "близости" (как определено выше) имеет наименьшую эллипсоид концентрации. На рисунке ниже представлена ​​2D-иллюстрация (вдохновленная иллюстрацией в книге Шарфа ).ЕгрглбРгθ^crlbΣcrlbPr

2D иллюстрация CRLB в контексте объективных оценок.

idnavid
источник
2
Ну, это чертовски здорово, особенно изображение, нужно больше голосов.
Астрид