Статистика теста для теста Хосмера-Лемешова (HLT) на пригодность (GOF) модели логистической регрессии определяется следующим образом:
Затем выборка разбивается на децилей, , , для каждого дециля вычисляются следующие величины:
- , т.е. наблюдаемое количество положительных случаев в ;
- , т.е. наблюдаемое количество отрицательных случаев в ;
- , т.е. предполагаемое количество положительных случаев в ;
- , т.е. предполагаемое количество отрицательных случаев в ;
где - наблюдаемый двоичный результат для наблюдения и - предполагаемая вероятность для этого наблюдения.
Тогда тестовая статистика определяется как:
где - средняя оценочная вероятность в децилях а - количество компаний в децилях.
По Hosmer-Lemeshow (см по ссылке ) эта статистика имеет (при некоторых предположениях) а распределение с степенями свободы .
С другой стороны , если бы я определил таблицу сопряженности с строками (соответствующими децилям) и 2 столбцами (соответствующими двоичному результату «истина / ложь»), то тест-статистика для теста для этой таблицы сопряженности будет такой же, как определенный выше, однако, в случае таблицы сопряженности, эта тестовая статистика равна с степенями свободы . Так что одна степень свободы больше !
Как можно объяснить эту разницу в количестве степеней свободы?
РЕДАКТИРОВАТЬ: дополнения после прочтения комментариев:
@whuber
Они говорят (см. Hosmer DW, Lemeshow S. (1980), критерий соответствия для модели множественной логистической регрессии. Сообщения в статистике, A10, 1043-1069 ), что есть теорема, продемонстрированная Муром и Спруиллом, из которой из этого следует, что если (1) параметры оцениваются с использованием функций правдоподобия для несгруппированных данных и (2) частоты в таблице 2xg зависят от оцененных параметров, а именно, ячейки являются случайными, а не фиксированными, то тогда при соответствующих условиях регулярности В соответствии с (1) и (2) статистикой добротности является статистика центрального хи-квадрата с обычным уменьшением степеней свободы из-за оценочных параметров плюс сумма взвешенных переменных хи-квадрата.
Затем, если я хорошо понимаю их статью, они пытаются найти приближение для этого «корректирующего члена», которое, если я хорошо понимаю, является этой взвешенной суммой случайных величин хи-квадрат, и они делают это путем моделирования, но я Должен признать, что я не до конца понимаю, что они там говорят, отсюда и мой вопрос; почему эти клетки случайны, как это влияет на степень свободы? Было бы по-другому, если бы я зафиксировал границы ячеек, а затем классифицировал наблюдения в фиксированных ячейках на основе оценочной оценки, в этом случае ячейки не являются случайными, хотя «содержимое» ячейки есть?
@Frank Harell: неужели «недостатки» теста Хосмера-Лемешоу, которые вы упоминаете в своих комментариях ниже, являются лишь следствием приближения взвешенной суммы хи-квадратов ?
rms
пакет Rresiduals.lrm
иval.prob
функции.Ответы:
Хосмер Д., Лемешоу С. (1980). Тест на пригодность для модели множественной логистической регрессии. Сообщения в статистике, A10, 1043-1069 показывают, что:
(Примечание: необходимые условия явно не указаны в теореме 2 на стр. 1052, но если внимательно прочитать статью и доказательство, то они всплывают)
Второе слагаемое вытекает из того факта, что группировка основана на оцененных, т.е. случайных, величинах (Hosmer, Lemeshow, 1980, p. 1051)∑p+1i=1λiχ2i(1)
Используя моделирование, они показали, что второе слагаемое может (в случаях, использованных в симуляции) быть аппроксимированным (Hosmer, Lemeshow, 1980, p.1060)χ2(p−1)
См. Также документ Hosmer Lemeshow (1980). Теорема 2
источник
Теорема, на которую вы ссылаетесь (обычная часть сокращения «обычное уменьшение степеней свободы из-за оценочных параметров»), была в основном поддержана Р. А. Фишером. В «О интерпретации квадрата Чи из таблиц непредвиденных обстоятельств и расчете P» (1922) он приводил аргументы в пользу использования правила и в «Правильности соответствия форм регрессии» ( 1922) он утверждает, что уменьшает степени свободы на число параметров, используемых в регрессии для получения ожидаемых значений из данных. (Интересно отметить, что люди неправильно использовали критерий хи-квадрат с неправильными степенями свободы более двадцати лет с момента его введения в 1900 году)(R−1)∗(C−1)
Ваш случай относится ко второму типу (регрессия), а не к первому виду (таблица сопряженности), хотя оба связаны тем, что они являются линейными ограничениями параметров.
Поскольку вы моделируете ожидаемые значения на основе ваших наблюдаемых значений, и вы делаете это с моделью, имеющей два параметра, «обычное» уменьшение степеней свободы составляет два плюс один (дополнительный, потому что O_i нужно суммировать до итого, что является еще одним линейным ограничением, и в результате вы получите эффективное сокращение в два раза вместо трех из-за «неэффективности» смоделированных ожидаемых значений).
Тест хи-квадрат использует в качестве меры расстояния, чтобы выразить, насколько близок результат к ожидаемым данным. Во многих версиях тестов хи-квадрат распределение этого «расстояния» связано с суммой отклонений в нормально распределенных переменных (что верно только для предела и является приблизительным, если вы имеете дело с ненормальными распределенными данными) ,χ2
Для многомерного нормального распределения функция плотности связана с выражениемχ2
с определителем ковариационной матрицы|Σ| x
и является махаланобисом расстояние, которое уменьшается до евклидова расстояния, если .χ2=(x−μ)TΣ−1(x−μ) Σ=I
В своей статье 1900 года Пирсон утверждал, что -уровни являются сфероидами и что он может преобразовываться в сферические координаты, чтобы интегрировать такие значения, как . Который становится единым целым.χ2 P(χ2>a)
Именно это геометрическое представление, как расстояние, а также член в функции плотности, может помочь понять уменьшение степеней свободы при наличии линейных ограничений.χ2
Сначала рассмотрим таблицу непредвиденных обстоятельств 2x2 . Вы должны заметить, что четыре значения не являются четырьмя независимыми нормально распределенными переменными. Вместо этого они связаны друг с другом и сводятся к одной переменной.Oi−EiEi
Давайте использовать таблицу
тогда, если ожидаемые значения
где фиксировано, то будет распределяться как распределение хи-квадрат с четырьмя степенями свободы, но часто мы оцениваем на основе и вариация не похожа на четыре независимых переменных. Вместо этого мы получаем, что все различия между и одинаковы∑oij−eijeij eij oij o e
и они фактически являются одной переменной, а не четырьмя. Геометрически это можно увидеть как значение не интегрированное в четырехмерную сферу, а в одну линию.χ2
Обратите внимание, что этот тест таблицы сопряженности не подходит для таблицы сопряженности в тесте Хосмера-Лемешоу (он использует другую нулевую гипотезу!). См. Также раздел 2.1 «случай, когда и известны» в статье Hosmer и Lemshow. В их случае вы получаете 2g-1 степени свободы, а не g-1 степени свободы, как в правиле (R-1) (C-1). Это правило (R-1) (C-1) в особенности относится к нулевой гипотезе о том, что переменные строки и столбца являются независимыми (что создает ограничения R + C-1 для ). Тест Хосмера-Лемешоу относится к гипотезе о том, что ячейки заполнены в соответствии с вероятностями модели логистической регрессии, основанной наβ0 β–– oi−ei four параметры в случае распределения предположения A и параметры в случае распределения предположения B.p+1
Второй случай регрессии. Регрессия делает нечто похожее на разницу как таблицу сопряженности и уменьшает размерность вариации. Для этого есть хорошее геометрическое представление, поскольку значение можно представить как сумму модельного члена и остаточных (не ошибочных) терминов . Эти модельные члены и остаточные члены представляют пространственное пространство, перпендикулярное друг другу. Это означает, что остаточные условия не могут принимать любое возможное значение! А именно, они уменьшаются на часть, которая проецируется на модель, и более конкретно на 1 измерение для каждого параметра в модели.o−e yi βxi ϵi ϵi
Возможно, следующие изображения могут немного помочь
Ниже 400 кратных трех (некоррелированных) переменных из биномиальных распределений . Они относятся к нормальным распределенным переменным . На этом же рисунке мы рисуем изоповерхность для . Интегрирование по этому пространству с использованием сферических координат, так что нам нужно только одно интегрирование (поскольку изменение угла не приводит к изменению плотности), в результате получается в котором эта часть представляет область d-мерной сферы. Если бы мы ограничивали переменныеB(n=60,p=1/6,2/6,3/6) N(μ=n∗p,σ2=n∗p∗(1−p)) χ2=1,2,6 χ ∫a0e−12χ2χd−1dχ χd−1 χ в некотором смысле, интеграция была бы не над d-мерной сферой, а чем-то более низкого измерения.
Изображение ниже может быть использовано, чтобы получить представление об уменьшении размеров в остаточном выражении. Это объясняет метод подбора наименьших квадратов в геометрическом выражении.
В синем у вас есть измерения. В красном у вас есть то, что позволяет модель. Измерение часто не совсем соответствует модели и имеет некоторое отклонение. Вы можете рассматривать это геометрически как расстояние от измеренной точки до красной поверхности.
Красные стрелки и имеют значения и и могут быть связаны с некоторой линейной моделью как x = a + b * z + error илиmu1 mu2 (1,1,1) (0,1,2)
таким образом, диапазон этих двух векторов и (красная плоскость) - это значения для , которые возможны в регрессионной модели, а - это вектор, который представляет собой разницу между наблюдаемое значение и регрессия / смоделированное значение. В методе наименьших квадратов этот вектор перпендикулярен (наименьшее расстояние - наименьшая сумма квадратов) к красной поверхности (а смоделированное значение является проекцией наблюдаемого значения на красную поверхность).( 0 , 1 , 2 ) x ϵ(1,1,1) (0,1,2) x ϵ
Таким образом, эта разница между наблюдаемым и (смоделированным) ожидаемым является суммой векторов, которые перпендикулярны вектору модели (и это пространство имеет размерность общего пространства минус число векторов модели).
В нашем простом примере. Общее измерение составляет 3. У модели есть 2 измерения. И ошибка имеет размерность 1 (поэтому независимо от того, какую из этих голубых точек вы берете, зеленые стрелки показывают один пример, термины ошибки всегда имеют одинаковое отношение, следуют за одним вектором).
Я надеюсь, что это объяснение помогает. Это ни в коем случае не является строгим доказательством, и есть некоторые специальные алгебраические приемы, которые необходимо решить в этих геометрических представлениях. Но в любом случае мне нравятся эти два геометрических представления. Один для хитрости Пирсона, чтобы интегрировать , используя сферические координаты, а другой для просмотра метода суммы наименьших квадратов в виде проекции на плоскость (или больший промежуток).χ2
Я всегда удивляюсь, как мы получаем , на мой взгляд, это не тривиально, поскольку нормальное приближение бинома не является делением на а на и в В случае таблиц сопряженности вы можете легко их обработать, но в случае регрессии или других линейных ограничений это не так просто, в то время как в литературе часто очень легко утверждать, что «то же самое работает для других линейных ограничений» , (Интересный пример проблемы. Если вы выполнили следующий тест несколько раз «бросьте 2 раза 10 раз монету и зарегистрировали только те случаи, в которых сумма равна 10», вы не получите типичное распределение хи-квадрат для этого » простое «линейное ограничение» enp(1-p)o−ee e np(1−p)
источник