Какая информация является информацией Фишера?

29

Предположим, у нас есть случайная величина . Если был истинным параметром, функция правдоподобия должна быть максимизирована, а производная равна нулю. Это основной принцип оценки максимального правдоподобия.Xf(x|θ)θ0

Насколько я понимаю, информация о Фишере определяется как

I(θ)=E[(θf(X|θ))2]

Таким образом, если является истинным параметром, . Но если это не является истинным параметром, то у нас будет больше информации о Фишере.θ0я(θ)знак равно0θ0

мои вопросы

  1. Измеряет ли информация Фишера «ошибку» данного MLE? Другими словами, не означает ли наличие положительной информации Фишера, что моя MLE не может быть идеальной?
  2. Чем это определение «информации» отличается от того, которое использует Шеннон? Почему мы называем это информацией?
Стэн Шунпайк
источник
Почему ты пишешь это Eθ ? Ожидается превышение значений X распределенных так, как если бы они пришли из вашего распределения с параметром θ .
Нил Г
3
Также я(θ) не равно нулю при истинном параметре.
Нил Г
E (S) равно нулю (то есть: ожидание функции оценки), но, как писал Нейл Г, информация Фишера (V (S)) не является (обычно) нулем.
Таль Галили

Ответы:

15

Попытка дополнить другие ответы ... Какая информация является информацией Фишера? Начать с функцией loglikelihood в зависимости от & thetas для thetas ; thetas ; , пространства параметров. Предполагая некоторые условия регулярности, которые мы здесь не обсуждаем, имеем E

(θ)знак равножурнале(Икс;θ)
θθΘ(мы будем писать производные по параметру как точкикак здесь). Дисперсия информация Фишера I(θ)=Еθ( ˙ л (θ))2=-Еθ ¨ л (θ) последняя формула показываетчто это (отрицательный) кривизна функции loglikelihood. Часто можно найти оценку максимального правдоподобия (mle)Еθ(θ)знак равноЕθ˙(θ)знак равно0
я(θ)знак равноЕθ(˙(θ))2знак равно-Еθ¨(θ)
путем решения уравнения правдоподобия ˙ ( θ ) = 0, когда информация Фишера как дисперсия оценки ˙ ( θ ) велика, тогда решение этого уравнения будет очень чувствительным к данным, что дает надежду на высокие Точность MLE. Это подтверждается, по крайней мере, асимптотически, поскольку асимптотическая дисперсия mle является обратной информацией Фишера.θ˙(θ)знак равно0˙(θ)

Как мы можем интерпретировать это? - это информация о вероятности параметра θ из выборки. Это действительно можно интерпретировать только в относительном смысле, например, когда мы используем его для сравнения правдоподобия двух различных возможных значений параметров с помощью теста отношения правдоподобия ( θ 0 ) - ( θ 1 ) . Скорость изменения логарифмического правдоподобия является функцией оценки ˙ ( θ ), которая говорит нам, как быстро изменяется вероятность, и ее дисперсия I ( θ )(θ)θ(θ0)-(θ1)˙(θ)я(θ)насколько это зависит от образца к образцу, при заданном значении paramiter, скажем . Уравнение (что действительно удивительно!) I ( θ ) = - E θ ¨ ( θ ) говорит нам, что существует связь (равенство) между изменчивостью информации (вероятности) для данного значения параметра, θ 0 , и кривизна функции правдоподобия для этого значения параметра. Это удивительное соотношение между изменчивостью (дисперсией) этой статистики ˙ ( θ ) θ = θ 0θ0

я(θ)знак равно-Еθ¨(θ)
θ0˙(θ)|θзнак равноθ0и ожидаемое изменение вероятности, когда мы изменяем параметр в некотором интервале вокруг θ 0 (для тех же данных). Это действительно странно, удивительно и мощно!θθ0

Так, какова функция вероятности? Обычно мы рассматриваем статистическую модель как семейство вероятностных распределений для данных x , проиндексированных параметром θ некоторого элемента в пространстве параметров Θ . Мы считаем эту модель истинной, если существует некоторое значение θ 0Θ такое, что данные x фактически имеют распределение вероятностей f ( x ; θ 0 ){е(Икс;θ),θΘ}ИксθΘθ0ΘИксе(Икс;θ0), Таким образом, мы получаем статистическую модель путем встраивания истинного распределения вероятности данных в семейство вероятностных распределений. Но ясно, что такое вложение может быть сделано разными способами, и каждое такое вложение будет «истинной» моделью, и они будут давать разные функции правдоподобия. А без такого вложения нет функции правдоподобия. Кажется, что нам действительно нужна помощь, некоторые принципы того, как правильно выбрать вложение!е(Икс;θ0)

Итак, что это значит? Это означает, что выбор функции правдоподобия говорит нам, как мы можем ожидать, что данные изменятся, если правда немного изменится. Но это на самом деле не может быть подтверждено данными, так как данные дают информацию только об истинной функции модели которая фактически генерировала данные, и ничего о всех других элементах в выбранной модели. Таким образом, мы видим, что выбор функции правдоподобия аналогичен выбору априора в байесовском анализе, он вводит информацию, не относящуюся к данным, в анализ. Давайте посмотрим на это в простом (несколько искусственном) примере и посмотрим на эффект вложения f ( x ; θ 0 )е(Икс;θ0)е(Икс;θ0) в модели по-разному.

Предположим, что определены как N ( μ = 10 , σ 2 = 1 ) . Итак, это истинное распределение, генерирующее данные. Теперь давайте встроим это в модель двумя различными способами: модель A и модель B. A : X 1 , , X n iid N ( μ , σ 2 = 1 ) , μ RИкс1,...,ИксNN(μзнак равно10,σ2знак равно1) вы можете проверить, что это совпадает для μ = 10 .

A:Икс1,...,ИксN н.о.р. N(μ,σ2знак равно1),μрВ:Икс1,...,ИксN н.о.р. N(μ,μ/10),μ>0
μзнак равно10

Функции логарифмического правдоподобия становятся

A(μ)знак равно-N2журнал(2π)-12Σя(Икся-μ)2В(μ)знак равно-N2журнал(2π)-N2журнал(μ/10)-102Σя(Икся-μ)2μ

˙A(μ)знак равноN(Икс¯-μ)˙В(μ)знак равно-N2μ-102Σя(Иксяμ)2-15N
¨A(μ)знак равно-N¨В(μ)знак равноN2μ2+102Σя2Икся2μ3
μзнак равно10
яA(μзнак равно10)знак равноN,яВ(μзнак равно10)знак равноN(1200+20202000)>N

μ

Кроме того, этот пример иллюстрирует, что нам действительно нужна некоторая теория, чтобы помочь нам в создании семейств моделей.

Къетил б Халворсен
источник
1
\ Eθ˙(θ)знак равно0θθ0
1
Да, то, что вы говорите, верно, @idadanny Это значение равно нулю, когда оценивается при значении истинного параметра.
kjetil b halvorsen
θθ0
θ^
θ0θмLеθ0θ1
31

θθ

Учтите, что у вас была большая модель с миллионами параметров. И у вас был маленький флеш-накопитель, на котором можно хранить вашу модель. Как вы должны расставить приоритеты, сколько бит каждого параметра хранить? Правильный ответ - распределить биты в соответствии с информацией Фишера (об этом писал Риссанен). Если информация о параметре Фишера равна нулю, этот параметр не имеет значения.

Мы называем это «информацией», потому что информация Фишера измеряет, насколько этот параметр говорит нам о данных.


Разговорный способ думать об этом так: предположим, что параметры управляют автомобилем, а данные на заднем сиденье корректируют водителя. Раздражительность данных - это информация Фишера. Если данные позволяют драйверу проехать, информация Фишера равна нулю; если данные постоянно вносят исправления, они большие. В этом смысле информация Фишера - это объем информации, идущей от данных к параметрам.

Подумайте, что произойдет, если вы сделаете руль более чувствительным. Это эквивалентно репараметризации. В этом случае данные не хотят быть такими громкими из-за страха чрезмерного поворота автомобиля. Этот вид репараметризации уменьшает информацию Фишера.

Нил Г
источник
20

В дополнение к приятному ответу @ NeilG (+1) и к вашим конкретным вопросам:

  1. Я бы сказал, что он учитывает «точность», а не саму «ошибку».

Помните, что гессиан логарифмического правдоподобия, оцененный по оценкам ML, является наблюдаемой информацией Фишера. Расчетные стандартные ошибки представляют собой квадратные корни диагональных элементов, обратных наблюдаемой информационной матрице Фишера. Исходя из этого, информация Фишера является следом информационной матрицы Фишера. Учитывая, что информационная матрица Фишерая является эрмитовой матрицей положительно-полуопределенной матрицы, то диагональные элементы яJ,Jиз этого реальны и неотрицательны; как прямое следствиеTр(я)должен быть положительным. Это означает, что вы можете иметь только «неидеальные» оценки в соответствии с вашим утверждением. Так что нет, положительная информация Фишера не связана с тем, насколько идеален ваш MLE.

  1. Определение отличается в том, как мы интерпретируем понятие информации в обоих случаях. Сказав это, два измерения тесно связаны.

Обратной информацией Фишера является минимальная дисперсия несмещенной оценки ( граница Крамера – Рао ). В этом смысле информационная матрица указывает, сколько информации о оценочных коэффициентах содержится в данных. Наоборот, энтропия Шеннона была взята из термодинамики. Он связывает информационное содержание определенного значения переменной как-п·Lог2(п) где пвероятность того, что переменная принимает значение. Оба являются измерениями того, насколько «информативна» переменная. В первом случае вы судите эту информацию с точки зрения точности, а во втором - с точки зрения беспорядка; разные стороны, одна и та же монета! : D

Напомним: обратная сторона информационной матрицы Фишера япри значениях оценки ML оценивается асимптотическая или приближенная ковариационная матрица. Поскольку эти значения оценщика ML находятся в локальном минимуме графически, информация Фишера показывает, насколько глубокий этот минимум и сколько у вас пространства для маневра вокруг него. Я нашел эту статью Lutwak et al. на расширениях информации Фишера и неравенстве Ст в информативном чтении по этому вопросу. Статьи Википедии об информационной метрике Фишера и о расхождении Дженсена-Шеннона также хороши для начала.

usεr11852 говорит восстановить Monic
источник