Мне не нравится информация Фишера, что она измеряет и чем она полезна. Кроме того, для меня не очевидны отношения с Крамером-Рао.
Может ли кто-нибудь дать интуитивное объяснение этих понятий?
estimation
intuition
fisher-information
бесконечность
источник
источник
Ответы:
Здесь я объясняю, почему асимптотическая дисперсия оценки максимального правдоподобия является нижней границей Крамера-Рао. Надеюсь, это даст некоторое представление об актуальности информации Фишера.
Статистический вывод осуществляется с использованием функции правдоподобия которую вы строите из данных. Точечная оценка - это значение, которое максимизирует . Оценщик является случайной величиной, но помогает понять, что функция правдоподобия является "случайной кривой".θ L ( θ ) θ L ( θ )L(θ) θ^ L(θ) θ^ L(θ)
Здесь мы предполагаем, что данные взяты из распределения , и определяем вероятность L ( θ ) = 1f(x|θ)
Параметр имеет свойство максимизировать значение «истинного» правдоподобия, . Тем не менее, «наблюдаемая» функция правдоподобия которая построена на основе данных, немного «отличается» от истинного правдоподобия. Тем не менее, как вы можете себе представить, с увеличением размера выборки «наблюдаемая» вероятность сходится к форме кривой истинного вероятности. То же самое относится и к производной вероятности по параметру : функция оценки . (Короче говоря, информация Фишера определяет, насколько быстро наблюдаемая функция оценки сходится к форме функции истинной оценки.E L ( θ ) L ( θ ) ∂ L / ∂ θθ EL(θ) L(θ) ∂L/∂θ
При большом размере выборки мы предполагаем, что наша оценка максимального правдоподобия очень близка к . Мы приближаемся к небольшой окрестности вокруг и чтобы функция правдоподобия была "локально квадратичной". ; & thetasthetas ; & thetas ;θ^ θ θ θ^
Там, - это точка, в которой функция оценки пересекает начало координат. В этой небольшой области мы рассматриваем функцию оценки как линию , одну с наклоном и случайным пересечением в . Мы знаем из уравнения для линии, чтоθ^ ∂L/∂θ a b θ
или же
Из последовательности оценки MLE мы знаем, что
в пределе.
Следовательно, асимптотически
Оказывается, что наклон изменяется намного меньше, чем перехват, и асимптотически мы можем рассматривать функцию оценки как наличие постоянного наклона в небольшой окрестности вокруг . Таким образом, мы можем написатьθ
Итак, каковы значения и ? Оказывается, из-за чудесного математического совпадения они представляют собой ту же самую величину (по модулю знака минус), как и информация Фишера.a nVar(b)
Таким образом,
источник
Один из способов понять информацию о Фишере - это следующее определение:
Информация о Фишере может быть записана таким образом, когда плотность дважды дифференцируема. Если выборочное пространство не зависит от параметра , то мы можем использовать интегральную формулу Лейбница, чтобы показать, что первый член равен нулю (дифференцируем обе стороны дважды, и вы получите ноль), а второй термин является «стандартным» определением. Я возьму случай, когда первый член равен нулю. Случаи, когда он не равен нулю, не слишком полезны для понимания информации Фишера.f(x|θ) X θ ∫Xf(x|θ)dx=1
Теперь, когда вы делаете оценку максимального правдоподобия (вставьте здесь «условия регулярности»), вы устанавливаете
И решить для . Таким образом, вторая производная говорит о том, как быстро меняется градиент, и в некотором смысле «как далеко» может отойти от MLE, не внося заметных изменений в правой части вышеприведенного уравнения. Еще один способ думать об этом - представить «гору», нарисованную на бумаге - это функция логарифмического правдоподобия. Решение приведенного выше уравнения MLE показывает, где находится пик этой горы как функция случайной величины . Вторая производная говорит вам, насколько крутая гора - что в некотором смысле говорит вам, как легко найти вершину горы. Информация Фишера берется из взятия ожидаемой крутизны пика, и поэтому она имеет некоторую интерпретацию «предварительных данных».θ θ x
Одна вещь, которую я до сих пор нахожу любопытной, заключается в том, насколько велика логарифмическая вероятность, а не насколько крутая монотонная функция вероятности (возможно, связана с «правильными» оценочными функциями в теории принятия решений? Или, может быть, с аксиомами согласованности энтропии?) ?).
Информация Фишера также «обнаруживается» во многих асимптотических анализах из-за того, что известно как приближение Лапласа. В основном это связано с тем, что любая функция с «хорошо округленным» одиночным повышением максимума до более высокой степени переходит в гауссову функцию (аналогично теореме о центральном пределе, но немного больше Генеральная). Поэтому, когда у вас большая выборка, вы эффективно находитесь в этой позиции и можете написать:exp(−ax2)
И когда вы Тейлор расширите логарифмическую вероятность MLE:
Что обычно означает хорошее приближение замены суммы интегралом, но для этого требуется, чтобы данные были независимыми. Таким образом, для больших независимых выборок (заданных ) вы можете видеть, что информация Фишера является переменной MLE для различных значений MLE.θ
источник
Это самая интуитивная статья, которую я когда-либо видел:
Нижняя граница Крамера-Рао по дисперсии: «Принцип неопределенности» Адама и Евы, Майкл Р. Пауэрс, Журнал Risk Finance, Vol. 7, № 3, 2006
Граница объясняется аналогией Адама и Евы в Эдемском саду, бросающих монету, чтобы увидеть, кто должен есть фрукты, и затем они спрашивают себя, насколько большой образец необходим для достижения определенного уровня точности в их оценке, и затем они обнаруживают эту связь ...
Хорошая история с глубоким посланием о реальности.
источник
Хотя приведенные выше объяснения очень интересны, и я с удовольствием ознакомился с ними, я чувствую, что природа нижней границы Крамера-Рао была лучше всего объяснена мне с геометрической точки зрения. Эта интуиция представляет собой краткое изложение концепции эллипсов концентрации из главы 6 книги Шарфа «Статистическая обработка сигналов» .
Рассмотрим любую непредвзятую оценку . Кроме того, предположим, что оценщик имеет гауссово распределение с ковариацией . В этих условиях распределение пропорционально:θ θ^ Σ θ^
Теперь подумайте о контурах этого распределения для . Любое ограничение верхней границы вероятности (то есть ) приведет к эллипсоиду с центром в с фиксированным радиусом . Легко показать, что существует взаимно-однозначное соотношение между радиусом эллипсоида и желаемой вероятностью . Другими словами, близка к внутри эллипсоида, определяемого радиусом с вероятностьюthetas ; ∫ F ( & thetas ; ) d & thetas ; & le ; Р г & thetas ; г г Р г & thetas ; & thetas ;θ∈R2 θ^ ∫f(θ^)dθ≤Pr θ r r Pr θ^ θ P rr Pr , Этот эллипсоид называется концентрационным эллипсоидом.
Учитывая приведенное выше описание, мы можем сказать следующее о CRLB. Среди всех объективных оценок CRLB представляет собой оценщик с ковариацией который для фиксированной вероятности "близости" (как определено выше) имеет наименьшую эллипсоид концентрации. На рисунке ниже представлена 2D-иллюстрация (вдохновленная иллюстрацией в книге Шарфа ).ЕгрглбРгθ^crlb Σcrlb Pr
источник