Степени свободы в тесте Хосмера-Лемешоу

33

Статистика теста для теста Хосмера-Лемешова (HLT) на пригодность (GOF) модели логистической регрессии определяется следующим образом:

Затем выборка разбивается на децилей, , , для каждого дециля вычисляются следующие величины:d=10D1,D2,,Dd

  • O1d=iDdyi , т.е. наблюдаемое количество положительных случаев в ;Dd
  • O0d=iDd(1yi) , т.е. наблюдаемое количество отрицательных случаев в ;Dd
  • E1d=iDdπ^i , т.е. предполагаемое количество положительных случаев в ;Dd
  • E0d=iDd(1π^i) , т.е. предполагаемое количество отрицательных случаев в ;Dd

где - наблюдаемый двоичный результат для наблюдения и - предполагаемая вероятность для этого наблюдения.yiiπ^i

Тогда тестовая статистика определяется как:

X2=h=01g=1d((OhgEhg)2Ehg)=g=1d(O1gngπ^gng(1π^g)π^g)2,

где - средняя оценочная вероятность в децилях а - количество компаний в децилях.π^ggng

По Hosmer-Lemeshow (см по ссылке ) эта статистика имеет (при некоторых предположениях) а распределение с степенями свободы . χ2(d2)

С другой стороны , если бы я определил таблицу сопряженности с строками (соответствующими децилям) и 2 столбцами (соответствующими двоичному результату «истина / ложь»), то тест-статистика для теста для этой таблицы сопряженности будет такой же, как определенный выше, однако, в случае таблицы сопряженности, эта тестовая статистика равна с степенями свободы . Так что одна степень свободы больше !dχ2X2χ2(d1)(21)=d1

Как можно объяснить эту разницу в количестве степеней свободы?

РЕДАКТИРОВАТЬ: дополнения после прочтения комментариев:

@whuber

Они говорят (см. Hosmer DW, Lemeshow S. (1980), критерий соответствия для модели множественной логистической регрессии. Сообщения в статистике, A10, 1043-1069 ), что есть теорема, продемонстрированная Муром и Спруиллом, из которой из этого следует, что если (1) параметры оцениваются с использованием функций правдоподобия для несгруппированных данных и (2) частоты в таблице 2xg зависят от оцененных параметров, а именно, ячейки являются случайными, а не фиксированными, то тогда при соответствующих условиях регулярности В соответствии с (1) и (2) статистикой добротности является статистика центрального хи-квадрата с обычным уменьшением степеней свободы из-за оценочных параметров плюс сумма взвешенных переменных хи-квадрата.

Затем, если я хорошо понимаю их статью, они пытаются найти приближение для этого «корректирующего члена», которое, если я хорошо понимаю, является этой взвешенной суммой случайных величин хи-квадрат, и они делают это путем моделирования, но я Должен признать, что я не до конца понимаю, что они там говорят, отсюда и мой вопрос; почему эти клетки случайны, как это влияет на степень свободы? Было бы по-другому, если бы я зафиксировал границы ячеек, а затем классифицировал наблюдения в фиксированных ячейках на основе оценочной оценки, в этом случае ячейки не являются случайными, хотя «содержимое» ячейки есть?

@Frank Harell: неужели «недостатки» теста Хосмера-Лемешоу, которые вы упоминаете в своих комментариях ниже, являются лишь следствием приближения взвешенной суммы хи-квадратов ?


источник
9
Книга содержит подробное описание этого теста и основу для него. Ваш вопрос полностью ответил на стр. 145-149. Определение степеней свободы в тестах - тонкая вещь, потому что большинство из этих тестов являются приближениями (в первую очередь), и эти приближения хороши только тогда, когда применяются, казалось бы, незначительные технические условия. Для некоторого обсуждения всего этого см. Stats.stackexchange.com/a/17148 . H & L избрал чисто практический путь: они основывают свою рекомендацию DF на «обширном наборе симуляций». д - 2χ2d2
whuber
4
Этот тест в настоящее время считается устаревшим из-за (1) недостатка мощности, (2) биннинга непрерывных вероятностей и (3) произвольности выбора биннинга и выбора определения децилей. Рекомендуются тесты Hosmer - le Cessie 1 df или Spiegelhalter. Смотрите, например, rmsпакет R residuals.lrmи val.probфункции.
Фрэнк Харрелл
2
@Frank Harell: (а) даже если тест Хосмера-Лемешоу устарел, я думаю, что все еще интересно понять разницу с и (b) у вас есть ссылка, которая показывает, что тест Шпигельхальтера имеет большую мощность, чем тест Хосмера-Лемешоу? χ2
2
Эти вопросы ИМХО очень малы по сравнению с оригинальным вопросом.
Фрэнк Харрелл
3
Я думаю, что детали появляются в другом месте на этом сайте. Вкратце, (1) Хосмер показал, что тест произвольный - он очень чувствителен к точности вычисления децилей; (2) ему не хватает силы. Вы можете увидеть, что оно основано на неточных величинах, построив диаграмму калибровки в виде бина (в отличие от гладкой кривой калибровки) и отметив скачки. Кроме того, это не штрафует должным образом за экстремальное переоснащение.
Фрэнк Харрелл

Ответы:

2

Хосмер Д., Лемешоу С. (1980). Тест на пригодность для модели множественной логистической регрессии. Сообщения в статистике, A10, 1043-1069 показывают, что:

Если модель представляет собой модель логистической регрессии и параметры оцениваются по максимальной вероятности, а группы определяются по оценочным вероятностям, то считается, что асимптотически (Hosmer, Lemeshow, 1980, p.1052, теорема 2).G X 2 χ 2 ( G - p - 1 ) + p + 1 i = 1 λ i χ 2 i ( 1 )pGX2χ2(Gp1)+i=1p+1λiχi2(1)

(Примечание: необходимые условия явно не указаны в теореме 2 на стр. 1052, но если внимательно прочитать статью и доказательство, то они всплывают)

Второе слагаемое вытекает из того факта, что группировка основана на оцененных, т.е. случайных, величинах (Hosmer, Lemeshow, 1980, p. 1051)i=1p+1λiχi2(1)

Используя моделирование, они показали, что второе слагаемое может (в случаях, использованных в симуляции) быть аппроксимированным (Hosmer, Lemeshow, 1980, p.1060)χ2(p1)

Объединение этих двух фактов приводит к сумме двух переменных , одна с степенями свободы и вторая степенями свободы или G - p - 1 p - 1 X 2χ 2 ( G - p - 1 + p - 1 = G - 2 )χ2Gp1p1X2χ2(Gp1+p1=G2)

Таким образом, ответ на вопрос заключается в появлении «взвешенного члена хи-квадрат» или в том факте, что группы определяются с использованием оценочных вероятностей, которые сами являются случайными величинами.

См. Также документ Hosmer Lemeshow (1980). Теорема 2


источник
«Таким образом, ответ на этот вопрос заключается в появлении« взвешенного члена хи-квадрат » и в том факте, что группы определяются с использованием оценочных вероятностей, которые сами являются случайными величинами». A ) Оцененные вероятности дают вам дополнительное снижение p + 1, что делает основное отличие от случая таблицы сопряженности (в которой оцениваются только g членов). B ) Взвешенный член хи-квадрат возникает как поправка, потому что оценка не является оценкой вероятности или не столь же эффективна, и это делает эффект уменьшения менее значительным, чем (p + 1).
Секст Эмпирик
@Martijn Weterings: Прав ли я, если сделаю вывод, что то, что вы говорите в этом комментарии, не совсем то же самое объяснение (не говоря уже совсем другое), что и то, что вы говорите в своем ответе? Ваш комментарий приводит к выводу, что дф являются ? G2
Мой ответ объясняет интуицию, лежащую в основе различий в степенях свободы, по сравнению с рассуждениями, основанными на «статистике теста для теста для этой таблицы сопряженности», и объясняет, почему они различны (оценка случаев фиксированных ячеек). Основное внимание уделяется «обычному сокращению», из которого можно сделать вывод, что df будет G-3. Однако определенные условия для «обычного сокращения» не выполняются. По этой причине (случайные ячейки) вы получаете более сложные термины с взвешенным членом хи-квадрат в качестве поправки, и вы фактически получаете G-2. Это далеко не совсем другое. χ2
Секст Эмпирик
@ Martijn Weterings, извините, но я не могу высказать свое мнение, потому что я вообще не вижу в вашем ответе понятия «случайные ячейки». Вы имеете в виду, что все ваши хорошие картинки (и я имею в виду это, они очень хорошие) объясняют что-то о «случайных клетках» или вы пришли к этому понятию после прочтения моего ответа?
Не жалей Я согласен с тем, что мой ответ не является точным, чтобы точно показать степени свободы в тесте HL. Я прошу прощения за это. То, что у вас есть, это статистика Чернова Лемана (со случайными ячейками), которая следует за . В настоящее время мне неясно, какая часть вас беспокоит, я надеюсь, что вы можете быть более конструктивным в этом. Если вы хотите, чтобы все объяснили, у вас уже есть статьи для этого. Мой ответ только что затронул вопрос объясняющий основное отличие теста таблицы сопряженности. i=1ks1χ2(1)+i=ksk1λiχi2(1)i=1ks1χ2(1)
Секст Эмпирик
2

Теорема, на которую вы ссылаетесь (обычная часть сокращения «обычное уменьшение степеней свободы из-за оценочных параметров»), была в основном поддержана Р. А. Фишером. В «О интерпретации квадрата Чи из таблиц непредвиденных обстоятельств и расчете P» (1922) он приводил аргументы в пользу использования правила и в «Правильности соответствия форм регрессии» ( 1922) он утверждает, что уменьшает степени свободы на число параметров, используемых в регрессии для получения ожидаемых значений из данных. (Интересно отметить, что люди неправильно использовали критерий хи-квадрат с неправильными степенями свободы более двадцати лет с момента его введения в 1900 году)(R1)(C1)

Ваш случай относится ко второму типу (регрессия), а не к первому виду (таблица сопряженности), хотя оба связаны тем, что они являются линейными ограничениями параметров.

Поскольку вы моделируете ожидаемые значения на основе ваших наблюдаемых значений, и вы делаете это с моделью, имеющей два параметра, «обычное» уменьшение степеней свободы составляет два плюс один (дополнительный, потому что O_i нужно суммировать до итого, что является еще одним линейным ограничением, и в результате вы получите эффективное сокращение в два раза вместо трех из-за «неэффективности» смоделированных ожидаемых значений).


Тест хи-квадрат использует в качестве меры расстояния, чтобы выразить, насколько близок результат к ожидаемым данным. Во многих версиях тестов хи-квадрат распределение этого «расстояния» связано с суммой отклонений в нормально распределенных переменных (что верно только для предела и является приблизительным, если вы имеете дело с ненормальными распределенными данными) ,χ2

Для многомерного нормального распределения функция плотности связана с выражениемχ2

f(x1,...,xk)=e12χ2(2π)k|Σ|

с определителем ковариационной матрицы|Σ|x

и является махаланобисом расстояние, которое уменьшается до евклидова расстояния, если .χ2=(xμ)TΣ1(xμ)Σ=I

В своей статье 1900 года Пирсон утверждал, что -уровни являются сфероидами и что он может преобразовываться в сферические координаты, чтобы интегрировать такие значения, как . Который становится единым целым.χ2P(χ2>a)


Именно это геометрическое представление, как расстояние, а также член в функции плотности, может помочь понять уменьшение степеней свободы при наличии линейных ограничений.χ2

Сначала рассмотрим таблицу непредвиденных обстоятельств 2x2 . Вы должны заметить, что четыре значения не являются четырьмя независимыми нормально распределенными переменными. Вместо этого они связаны друг с другом и сводятся к одной переменной.OiEiEi

Давайте использовать таблицу

Oij=o11o12o21o22

тогда, если ожидаемые значения

Eij=e11e12e21e22

где фиксировано, то будет распределяться как распределение хи-квадрат с четырьмя степенями свободы, но часто мы оцениваем на основе и вариация не похожа на четыре независимых переменных. Вместо этого мы получаем, что все различия между и одинаковыoijeijeijeijoijoe

(o11e11)=(o22e22)=(o21e21)=(o12e12)=o11(o11+o12)(o11+o21)(o11+o12+o21+o22)

и они фактически являются одной переменной, а не четырьмя. Геометрически это можно увидеть как значение не интегрированное в четырехмерную сферу, а в одну линию.χ2

Обратите внимание, что этот тест таблицы сопряженности не подходит для таблицы сопряженности в тесте Хосмера-Лемешоу (он использует другую нулевую гипотезу!). См. Также раздел 2.1 «случай, когда и известны» в статье Hosmer и Lemshow. В их случае вы получаете 2g-1 степени свободы, а не g-1 степени свободы, как в правиле (R-1) (C-1). Это правило (R-1) (C-1) в особенности относится к нулевой гипотезе о том, что переменные строки и столбца являются независимыми (что создает ограничения R + C-1 для ). Тест Хосмера-Лемешоу относится к гипотезе о том, что ячейки заполнены в соответствии с вероятностями модели логистической регрессии, основанной наβ0β_oieifourпараметры в случае распределения предположения A и параметры в случае распределения предположения B.p+1

Второй случай регрессии. Регрессия делает нечто похожее на разницу как таблицу сопряженности и уменьшает размерность вариации. Для этого есть хорошее геометрическое представление, поскольку значение можно представить как сумму модельного члена и остаточных (не ошибочных) терминов . Эти модельные члены и остаточные члены представляют пространственное пространство, перпендикулярное друг другу. Это означает, что остаточные условия не могут принимать любое возможное значение! А именно, они уменьшаются на часть, которая проецируется на модель, и более конкретно на 1 измерение для каждого параметра в модели.oeyiβxiϵiϵi


Возможно, следующие изображения могут немного помочь

Ниже 400 кратных трех (некоррелированных) переменных из биномиальных распределений . Они относятся к нормальным распределенным переменным . На этом же рисунке мы рисуем изоповерхность для . Интегрирование по этому пространству с использованием сферических координат, так что нам нужно только одно интегрирование (поскольку изменение угла не приводит к изменению плотности), в результате получается в котором эта часть представляет область d-мерной сферы. Если бы мы ограничивали переменныеB(n=60,p=1/6,2/6,3/6)N(μ=np,σ2=np(1p))χ2=1,2,6χ0ae12χ2χd1dχχd1χ в некотором смысле, интеграция была бы не над d-мерной сферой, а чем-то более низкого измерения.

графическое представление чи ^ 2

Изображение ниже может быть использовано, чтобы получить представление об уменьшении размеров в остаточном выражении. Это объясняет метод подбора наименьших квадратов в геометрическом выражении.

В синем у вас есть измерения. В красном у вас есть то, что позволяет модель. Измерение часто не совсем соответствует модели и имеет некоторое отклонение. Вы можете рассматривать это геометрически как расстояние от измеренной точки до красной поверхности.

Красные стрелки и имеют значения и и могут быть связаны с некоторой линейной моделью как x = a + b * z + error илиmu1mu2(1,1,1)(0,1,2)

[x1x2x3]=a[111]+b[012]+[ϵ1ϵ2ϵ3]

таким образом, диапазон этих двух векторов и (красная плоскость) - это значения для , которые возможны в регрессионной модели, а - это вектор, который представляет собой разницу между наблюдаемое значение и регрессия / смоделированное значение. В методе наименьших квадратов этот вектор перпендикулярен (наименьшее расстояние - наименьшая сумма квадратов) к красной поверхности (а смоделированное значение является проекцией наблюдаемого значения на красную поверхность).( 0 , 1 , 2 ) x ϵ(1,1,1)(0,1,2)xϵ

Таким образом, эта разница между наблюдаемым и (смоделированным) ожидаемым является суммой векторов, которые перпендикулярны вектору модели (и это пространство имеет размерность общего пространства минус число векторов модели).

В нашем простом примере. Общее измерение составляет 3. У модели есть 2 измерения. И ошибка имеет размерность 1 (поэтому независимо от того, какую из этих голубых точек вы берете, зеленые стрелки показывают один пример, термины ошибки всегда имеют одинаковое отношение, следуют за одним вектором).

графическое представление уменьшения размерности регрессии


Я надеюсь, что это объяснение помогает. Это ни в коем случае не является строгим доказательством, и есть некоторые специальные алгебраические приемы, которые необходимо решить в этих геометрических представлениях. Но в любом случае мне нравятся эти два геометрических представления. Один для хитрости Пирсона, чтобы интегрировать , используя сферические координаты, а другой для просмотра метода суммы наименьших квадратов в виде проекции на плоскость (или больший промежуток).χ2

Я всегда удивляюсь, как мы получаем , на мой взгляд, это не тривиально, поскольку нормальное приближение бинома не является делением на а на и в В случае таблиц сопряженности вы можете легко их обработать, но в случае регрессии или других линейных ограничений это не так просто, в то время как в литературе часто очень легко утверждать, что «то же самое работает для других линейных ограничений» , (Интересный пример проблемы. Если вы выполнили следующий тест несколько раз «бросьте 2 раза 10 раз монету и зарегистрировали только те случаи, в которых сумма равна 10», вы не получите типичное распределение хи-квадрат для этого » простое «линейное ограничение» enp(1-p)oeeenp(1p)

Секст Эмпирик
источник
2
По моему честному мнению, в этом ответе есть очень хорошие цифры и аргументы, связанные с тестом но он не имеет ничего общего с вопросом, касающимся теста Хосмера-Лемешоу для логистической регрессии. Вы обсуждаете что-то с регрессией, в которой оценивается 1 параметр, но тест Хосмера-Лемешова о логистической регрессии, где оцениваются параметры . Смотрите также stats.stackexchange.com/questions/296312/... p > 1χ2p>1
... и, как вы говорите, вы получите в знаменателе, а не , так что это не отвечает на этот вопрос. Следовательно, я должен понизить голос, извините (но графики очень хороши :-)). n p ( 1 - p )enp(1p)
В комментарии вы просили «понять формулу или хотя бы« интуитивное »объяснение». Вот что вы получаете с этими геометрическими интерпретациями. Точный расчет того, как эти отменяются, если вы добавляете как положительные, так и отрицательные случаи, далек от интуитивного и не помогает вам понять размеры. np(1p)
Секст Эмпирик
В своем ответе я использовал типичные степени свободы и предположил, что регрессия была выполнена с одним параметром (p = 1), что было ошибкой. Параметры в ваших ссылках - два, a и . Эти два параметра уменьшили бы размерность до d-3, если бы были соблюдены только надлежащие условия (эффективная оценка) (см., Например, хорошую статью Фишера 'Условия, при которых квадрат хи измеряет несоответствие между наблюдением и гипотезой ') ....β 0 β(d1p)β0β
Секст Эмпирик
.... во всяком случае, я объяснил, почему мы не получаем измерение d-1 (и вместо этого следует ожидать что-то вроде d-3, если вы поместите два параметра в регрессию) и как можно представить уменьшение размера с помощью эффективной оценки , Это статья Moore-Spruill, которая разрабатывает дополнительные термины (потенциально увеличивая эффективные степени свободы) из-за этой неэффективности, и именно симуляция Хосмера-Лемешоу показывает, что d-2 работает лучше всего. Эта теоретическая работа далеко не интуитивна, а симуляция далеко не точна. Мой ответ - просто запрошенное объяснение разницы с d-1.
Секст Эмпирик