Рассмотрим случайную переменную Бернулли с параметром (вероятность успеха). Функция правдоподобия и информация Фишера ( матрица ):θ 1 × 1
Теперь рассмотрим «слишком параметризованную» версию с двумя параметрами: вероятность успеха и вероятность отказа . (Обратите внимание, что , и это ограничение подразумевает, что один из параметров является избыточным.) В этом случае функция правдоподобия и информационная матрица Фишера (FIM):
Обратите внимание, что детерминанты этих двух FIM идентичны. Кроме того, это свойство распространяется на более общий случай категориальных моделей (т. Е. Более двух состояний). Он также распространяется на лог-линейные модели с различными подмножествами параметров, ограниченными до нуля; в этом случае дополнительный «избыточный» параметр соответствует функции логарифмического разбиения, и эквивалентность двух определителей FIM может быть показана на основе дополнения Шура более крупного FIM. (На самом деле, для лог-линейных моделей меньшая FIM является просто дополнением Шура к большей FIM.)
Может ли кто-нибудь объяснить, распространяется ли это свойство на больший набор параметрических моделей (например, на все экспоненциальные семейства), позволяя опцию получения определителей FIM на основе такого «расширенного» набора параметров? Т.е. предположим любую данную статистическую модель с параметрами, которые лежат на мерном многообразии, вложенном в -мерное пространство. Теперь, если мы расширим набор параметров, чтобы включить еще одно измерение (которое полностью ограничено на основе других) и вычислим FIM на основе этих параметров, мы всегда получим тот же определитель, что и исходный (независимых) параметров? Кроме того, как эти два FIM связаны?
Причина, по которой я задаю этот вопрос, состоит в том, что FIM с дополнительным параметром часто выглядит проще. Моя первая мысль - это не должно работать вообще. FIM включает в себя вычисление частных производных логарифмической вероятности по каждому параметру. Эти частные производные предполагают, что, хотя рассматриваемый параметр изменяется, все остальные параметры остаются постоянными, что неверно, если мы задействуем дополнительный (ограниченный) параметр. В этом случае мне кажется, что частные производные больше не действительны, потому что мы не можем предполагать, что другие параметры постоянны; Однако мне еще предстоит найти доказательства того, что это на самом деле проблема. (Если частные производные являются проблематичными в случаях с зависимыми параметрами, являются ли общие производныенужен вместо этого? Я еще не видел пример вычисления FIM с полным производным, но, возможно, это решение ...)
Единственный пример, который я мог найти в Интернете, который вычисляет FIM на основе такого «расширенного» набора параметров, заключается в следующем: эти примечания содержат пример для категориального распределения, вычисляя требуемые частные производные как обычно (т.е. как если бы каждый параметр был независимым даже если среди параметров есть ограничение).
источник
Ответы:
Для нормального информационная матрица имеет вид Для искривленной нормальнойИтак, ваше наблюдение, что детерминанты равны, не универсально, но это еще не все.X∼N(μ,σ2)
Как правило, если является информационной матрицей при репараметризации то нетрудно увидеть, что Информационная матрица для исходных параметров имеет вид где - якобиан преобразования .Ig
Для примера Бернулли и . Итак, якобиан равен и, таким образом,(θ0,θ1)=(p,1−p) g(p)=(p,1−p) (1,−1)′
Для изогнутого нормального примера,
Я думаю, что теперь вы можете легко связать детерминанты.
Продолжение после комментария
Если я вас правильно понял, FIM действителен до тех пор, пока вы существенно расширяете параметры: вероятность при новой параметризации должна быть действительной плотностью. Поэтому я назвал пример Бернулли неудачным.
Я думаю, что ссылка, которую вы предоставили, имеет серьезный недостаток при выводе FIM для категориальных переменных, так как у нас есть и . Обнаружение отрицательного гессиана дает , но не для ковариации векторов оценок. Если вы пренебрегаете ограничениями, равенство информационной матрицы не выполняется.E(x2i)=θi(1−θi)≠θi E(xixj)=θiθj≠0 diag{1/θi}
источник
Похоже, что результат имеет место для определенного вида связи между параметрами.
Не претендуя на полную общность приведенных ниже результатов, я придерживаюсь одного-двух параметров. Обозначим неявное уравнение, которое выражает отношения, которые должны соблюдаться между двумя параметрами. Тогда «правильное расширенное», «двухпараметрическое» логарифмическое правдоподобие (не то, что подсчитывает ОП - мы придем туда)g(θ0,θ1)=0
Используя индексы для обозначения производных по параметрам (одна первая производная нижнего индекса, вторая вторая производная нижних индексов), определитель гессиана правильного расширенного логарифмического правдоподобия будет
Что делает OP вместо этого?
Он считает неправильное правдоподобие «игнорированием» отношения между двумя параметрами и без учета ограничения . Затем он приступает к дифференциации и получаетL∗(θ0,θ1) g(θ0,θ1)
Очевидно, что в общем случае не равно .(2) (1)
Но если , тоg00=g11=g00=0
Таким образом, если связь между фактическим параметром и избыточным параметром такова, что все вторые частные производные неявной функции, которая их связывает, все равны нулю , то подход, который в корне неверен, оказывается «правильным».
Для случая Бернулли мы действительно имеем
ADDENDUMn
Чтобы ответить на вопрос @Khashaa и показать здесь механику, мы рассмотрим вероятность, указанную с избыточным параметром, но также с ограничением, которое связывает избыточный параметр с истинным. Что мы делаем с логарифмическими правдоподобиями, так это максимизируем их - так что здесь у нас есть случай ограниченного максимизации. Предположим, что образец размером :
Эта проблема имеет лангранжеву (то, что неофициально я назвал «правильной расширенной вероятностью» выше),
Условия первого порядка для максимума
для которого мы получаем соотношение
используя ограничение, при котором вышеприведенные действительны, мы получаемθ1=1−θ0
как мы должны.
Более того, поскольку ограничение является линейным по всем параметрам, его вторые производные будут равны нулю. Это отражается в том факте, что в первых производных лагрангана множитель " "стоит один", и он будет исключен, когда мы возьмем вторые производные лагранжиана. Что, в свою очередь, приведет нас к гессиану, чей определитель будет равен (одномерной) второй производной от исходного однопараметрического логарифмического правдоподобия, после наложения также ограничения (что и делает OP). Тогда взятие отрицательного значения ожидаемого значения в обоих случаях не меняет эту математическую эквивалентность, и мы приходим к соотношению «одномерная информация Фишера = определитель двумерной информации Фишера». Сейчас жеλ учитывая, что ограничение является линейным по всем параметрам, OP получает тот же результат (на уровне второй производной), не вводя ограничение с множителем в функцию, которая должна быть максимизирована, поскольку на втором уровне производной присутствие / влияние ограничение исчезает в таком случае.
Все это связано с исчислением, а не со статистическими понятиями.
источник