Предположим, у нас есть случайная величина . Если был истинным параметром, функция правдоподобия должна быть максимизирована, а производная равна нулю. Это основной принцип оценки максимального правдоподобия.
Насколько я понимаю, информация о Фишере определяется как
Таким образом, если является истинным параметром, . Но если это не является истинным параметром, то у нас будет больше информации о Фишере.
мои вопросы
- Измеряет ли информация Фишера «ошибку» данного MLE? Другими словами, не означает ли наличие положительной информации Фишера, что моя MLE не может быть идеальной?
- Чем это определение «информации» отличается от того, которое использует Шеннон? Почему мы называем это информацией?
bayesian
maximum-likelihood
likelihood
intuition
fisher-information
Стэн Шунпайк
источник
источник
Ответы:
Попытка дополнить другие ответы ... Какая информация является информацией Фишера? Начать с функцией loglikelihood в зависимости от & thetas для thetas ; ∈ thetas ; , пространства параметров. Предполагая некоторые условия регулярности, которые мы здесь не обсуждаем, имеем E ∂
Как мы можем интерпретировать это? - это информация о вероятности параметра θ из выборки. Это действительно можно интерпретировать только в относительном смысле, например, когда мы используем его для сравнения правдоподобия двух различных возможных значений параметров с помощью теста отношения правдоподобия ℓ ( θ 0 ) - ℓ ( θ 1 ) . Скорость изменения логарифмического правдоподобия является функцией оценки ˙ ℓ ( θ ), которая говорит нам, как быстро изменяется вероятность, и ее дисперсия I ( θ )ℓ ( θ ) θ ℓ ( θ0) - ℓ ( θ1) ℓ˙( θ ) я( θ ) насколько это зависит от образца к образцу, при заданном значении paramiter, скажем . Уравнение (что действительно удивительно!)
I ( θ ) = - E θ ¨ ℓ ( θ )
говорит нам, что существует связь (равенство) между изменчивостью информации (вероятности) для данного значения параметра, θ 0 , и кривизна функции правдоподобия для этого значения параметра. Это удивительное соотношение между изменчивостью (дисперсией) этой статистики ˙ ℓ ( θ ) ∣ θ = θ 0θ0
Так, какова функция вероятности? Обычно мы рассматриваем статистическую модель как семейство вероятностных распределений для данных x , проиндексированных параметром θ некоторого элемента в пространстве параметров Θ . Мы считаем эту модель истинной, если существует некоторое значение θ 0 ∈ Θ такое, что данные x фактически имеют распределение вероятностей f ( x ; θ 0 ){ ф( x ; θ ) , θ ∈ Θ } Икс θ Θ θ0∈ Θ Икс е( х ; θ0) , Таким образом, мы получаем статистическую модель путем встраивания истинного распределения вероятности данных в семейство вероятностных распределений. Но ясно, что такое вложение может быть сделано разными способами, и каждое такое вложение будет «истинной» моделью, и они будут давать разные функции правдоподобия. А без такого вложения нет функции правдоподобия. Кажется, что нам действительно нужна помощь, некоторые принципы того, как правильно выбрать вложение!е( х ; θ0)
Итак, что это значит? Это означает, что выбор функции правдоподобия говорит нам, как мы можем ожидать, что данные изменятся, если правда немного изменится. Но это на самом деле не может быть подтверждено данными, так как данные дают информацию только об истинной функции модели которая фактически генерировала данные, и ничего о всех других элементах в выбранной модели. Таким образом, мы видим, что выбор функции правдоподобия аналогичен выбору априора в байесовском анализе, он вводит информацию, не относящуюся к данным, в анализ. Давайте посмотрим на это в простом (несколько искусственном) примере и посмотрим на эффект вложения f ( x ; θ 0 )е( х ; θ0) е( х ; θ0) в модели по-разному.
Предположим, что определены как N ( μ = 10 , σ 2 = 1 ) . Итак, это истинное распределение, генерирующее данные. Теперь давайте встроим это в модель двумя различными способами: модель A и модель B. A : X 1 , … , X n iid N ( μ , σ 2 = 1 ) , μ ∈ RИкс1, … , XN N( μ = 10 , σ2= 1 )
вы можете проверить, что это совпадает для μ = 10 .
Функции логарифмического правдоподобия становятся
Кроме того, этот пример иллюстрирует, что нам действительно нужна некоторая теория, чтобы помочь нам в создании семейств моделей.
источник
Учтите, что у вас была большая модель с миллионами параметров. И у вас был маленький флеш-накопитель, на котором можно хранить вашу модель. Как вы должны расставить приоритеты, сколько бит каждого параметра хранить? Правильный ответ - распределить биты в соответствии с информацией Фишера (об этом писал Риссанен). Если информация о параметре Фишера равна нулю, этот параметр не имеет значения.
Мы называем это «информацией», потому что информация Фишера измеряет, насколько этот параметр говорит нам о данных.
Разговорный способ думать об этом так: предположим, что параметры управляют автомобилем, а данные на заднем сиденье корректируют водителя. Раздражительность данных - это информация Фишера. Если данные позволяют драйверу проехать, информация Фишера равна нулю; если данные постоянно вносят исправления, они большие. В этом смысле информация Фишера - это объем информации, идущей от данных к параметрам.
Подумайте, что произойдет, если вы сделаете руль более чувствительным. Это эквивалентно репараметризации. В этом случае данные не хотят быть такими громкими из-за страха чрезмерного поворота автомобиля. Этот вид репараметризации уменьшает информацию Фишера.
источник
В дополнение к приятному ответу @ NeilG (+1) и к вашим конкретным вопросам:
Помните, что гессиан логарифмического правдоподобия, оцененный по оценкам ML, является наблюдаемой информацией Фишера. Расчетные стандартные ошибки представляют собой квадратные корни диагональных элементов, обратных наблюдаемой информационной матрице Фишера. Исходя из этого, информация Фишера является следом информационной матрицы Фишера. Учитывая, что информационная матрица Фишерая является эрмитовой матрицей положительно-полуопределенной матрицы, то диагональные элементы яj , j из этого реальны и неотрицательны; как прямое следствиет р ( я) должен быть положительным. Это означает, что вы можете иметь только «неидеальные» оценки в соответствии с вашим утверждением. Так что нет, положительная информация Фишера не связана с тем, насколько идеален ваш MLE.
Обратной информацией Фишера является минимальная дисперсия несмещенной оценки ( граница Крамера – Рао ). В этом смысле информационная матрица указывает, сколько информации о оценочных коэффициентах содержится в данных. Наоборот, энтропия Шеннона была взята из термодинамики. Он связывает информационное содержание определенного значения переменной как- p ⋅ l o g2( р ) где п вероятность того, что переменная принимает значение. Оба являются измерениями того, насколько «информативна» переменная. В первом случае вы судите эту информацию с точки зрения точности, а во втором - с точки зрения беспорядка; разные стороны, одна и та же монета! : D
Напомним: обратная сторона информационной матрицы Фишерая при значениях оценки ML оценивается асимптотическая или приближенная ковариационная матрица. Поскольку эти значения оценщика ML находятся в локальном минимуме графически, информация Фишера показывает, насколько глубокий этот минимум и сколько у вас пространства для маневра вокруг него. Я нашел эту статью Lutwak et al. на расширениях информации Фишера и неравенстве Ст в информативном чтении по этому вопросу. Статьи Википедии об информационной метрике Фишера и о расхождении Дженсена-Шеннона также хороши для начала.
источник