У меня есть SPSS
выход для модели логистической регрессии. Выходные данные сообщают о двух мерах для подгонки модели, Cox & Snell
и Nagelkerke
.
Так что, как правило, какие из этих мер вы бы сообщили, как модель подходит?
Или какой из этих индексов соответствия обычно сообщается в журналах?
Немного предыстории: регрессия пытается предсказать наличие или отсутствие птицы (глухаря) из некоторых переменных среды (например, крутизна, растительный покров, ...). К сожалению, птица не появлялась очень часто (от 35 до 468 промахов), поэтому регрессия работает довольно плохо. Кокс и Снелл - это .09, Нагелкерке, .23.
Предмет - экология или экология.
logistic
goodness-of-fit
r-squared
Хенрик
источник
источник
Ответы:
Обычно я не буду сообщать о вообще. Хосмер и Лемешоу в своем учебнике « Прикладная логистическая регрессия» (2-е изд.) Объясняют, почему:R2
[На стр. 164.]
Относительно различных версий ML , «псевдо » stat, они упоминают, что он «не рекомендуется для обычного использования, поскольку это не так легко объяснить интуитивно», но они чувствуют себя обязанными описать его, потому что различные пакеты программ сообщают об этом.R 2R2 R2
Они завершают эту дискуссию в письменном виде,
[На стр. 167.]
Мой опыт работы с некоторыми крупными логистическими моделями (от 100 до 300 тысяч записей, от 100 до 300 объясняющих переменных) был именно таким, как описывают H & L. Я мог достичь относительно высокого с моими данными, примерно до 0,40. Они соответствовали частоте ошибок классификации между 3% и 15% (ложные отрицательные и ложные положительные результаты, сбалансированные, что подтверждено использованием 50% наборов данных удержания). Как намекнул H & L, мне пришлось потратить много времени на то, чтобы отвлечь клиента (самого опытного консультанта, который был знаком с ) в отношении и заставить его сосредоточиться на том, что имело значение в анализе (ошибка классификации ставки). Я могу горячо рекомендовать описать результаты вашего анализа без ссылки на , что, скорее всего, вводит в заблуждение, чем нет.R 2 R 2 R 2R2 R2 R2 R2
источник
Оба показателя являются показателями силы ассоциации (то есть связан ли какой-либо предиктор с результатом, как для теста LR) и могут использоваться для количественного определения способности к прогнозированию или производительности модели. Единственный предиктор может оказать существенное влияние на результат, но он не обязательно будет настолько полезен для прогнозирования индивидуального отклика , отсюда и необходимость оценки эффективности модели в целом (относительно нулевой модели). Nagelkerke полезен, поскольку имеет максимальное значение 1,0, как сказал Срикант. Это просто нормализованная версия вычисленная из отношения правдоподобия,R 2 R 2 LR = 1 - exp ( - LR / n )R2 R2 R2LR=1−exp(−LR/n) , который связан со статистикой Вальда для общей ассоциации, как первоначально предложено Коксом и Снеллом. Другими показателями прогнозирующей способности являются показатель Бриера, индекс С (вероятность совпадения или область ROC) или Сомерса D, последние два обеспечивают лучшую меру прогнозирующей дискриминации.
Единственные предположения, сделанные в логистической регрессии, - это линейность и аддитивность (+ независимость). Хотя было предложено много глобальных тестов на соответствие (например, тест Hosmer & Lemeshow , но см. Мой комментарий к @onestop), им, как правило, не хватает мощности. Для оценки соответствия модели лучше полагаться на визуальные критерии (стратифицированные оценки, непараметрическое сглаживание), которые помогают определить локальное или глобальное отклонение между прогнозируемыми и наблюдаемыми результатами (например, нелинейность или взаимодействие), и это в значительной степени подробно описано в RMS Харрелла. раздаточный материал . По смежной теме (калибровочные тесты), Штейерберг ( Модели клинического прогнозирования)χ2 , 2009) указывает на тот же подход для оценки соответствия между наблюдаемыми результатами и прогнозируемыми вероятностями:
Он также предлагает полагаться на абсолютную разницу между сглаженными наблюдаемыми результатами и прогнозируемыми вероятностями либо визуально, либо с помощью так называемой статистики Харрелла.
Более подробную информацию можно найти в книге Харрелла « Стратегии регрессионного моделирования» (стр. 203-205, 230-244, 247-249). Для более недавнего обсуждения см. Также
Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ, and Kattan, MW (2010). Оценка эффективности моделей прогнозирования, основы для традиционных и новых мер . Эпидемиология , 21 (1) , 128-138.
источник
Я бы подумал, что основная проблема с любым видом меры для логистической регрессии заключается в том, что вы имеете дело с моделью, которая имеет известное значение шума. Это отличается от стандартной линейной регрессии, где уровень шума обычно рассматривается как неизвестный. Поскольку мы можем написать функцию плотности вероятности glm как:R2
Где - известные функции, а для функции обратной связи . Если мы определим обычные остатки отклонения GLM какb(.), c(.), d(.;.) μi=g−1(xTiβ) g−1(.)
Где - размерность . Для логистической регрессии мы имеем , что известно. Таким образом, мы можем использовать это для определения определенного уровня остатка, который является «приемлемым» или «разумным». Обычно это невозможно сделать для регрессии OLS (если у вас нет предварительной информации о шуме). А именно, мы ожидаем, что каждый остаток отклонения будет около . Слишком много и, вероятно, в модели отсутствуют важные эффекты (недостаточная подгонка); слишком много и вполне вероятно, что в модели имеются избыточные или побочные эффекты (чрезмерная подгонка). (это также может означать неправильное определение модели).p β ϕ=1 1 d2i≫1 d2i≪1
Теперь это означает, что проблема для псевдо- заключается в том, что он не учитывает, что уровень биномиального отклонения предсказуем (при условии, что структура биномиальной ошибки не подвергается сомнению). Таким образом, хотя Nagelkerke варьируется от до , он все равно не масштабируется должным образом. Кроме того, я не могу понять, почему они называются псевдо если они не равны обычному когда вы устанавливаете «GLM» с идентификационной ссылкой и нормальной ошибкой. Например, эквивалентный R-квадрат Кокса-Снелла для нормальной ошибки (с использованием дисперсионной оценки REML) определяется как:R2 0 1 R2 R2
Что, конечно, выглядит странно.
Я думаю, что лучшей мерой "Goodness of Fit" является сумма остатков отклонения, . Это в основном потому, что у нас есть цель.χ2
источник
Я нашел короткую работу Туе Тьюра «Коэффициенты определения в моделях логистической регрессии - новое предложение: коэффициент дискриминации» (2009, американский статистик ) о различных предложениях по коэффициенту детерминации в логистических моделях весьма поучительной. Он делает хорошую работу, подчеркивая плюсы и минусы - и, конечно, предлагает новое определение. Очень рекомендую (хотя у меня самого нет любимого).
источник
Я также собирался сказать «ни один из них», поэтому я проголосовал за ответ whuber.
Наряду с критикой R ^ 2, Хосмер и Лемешоу предложили альтернативную меру пригодности для логистической регрессии, которая иногда бывает полезна. Это основано на делении данных на (скажем) 10 групп одинакового размера (или как можно ближе) путем упорядочения по прогнозируемой вероятности (или, что эквивалентно, по линейному предиктору), а затем сравнения наблюдаемого с ожидаемым количеством положительных ответов в каждой группе. и выполнение теста хи-квадрат. Этот тест на соответствие требованиям Hosmer-Lemeshow реализован в большинстве статистических программных пакетов.
источник
Design
пакет Фрэнка Харрелла содержит альтернативный тест H & L 1 df.Я бы предпочел Nagelkerke, поскольку эта модель соответствует 1, когда модель идеально подходит, давая читателю ощущение того, насколько далеко ваша модель от идеальной подгонки. Cox & Shell не достигает 1 для идеальной подгонки модели, и поэтому интерпретировать значение 0,09 немного сложнее. См. Этот URL для получения дополнительной информации о псевдо RSquared для объяснения различных типов посадки .
источник
Несмотря на аргументы против использования псевдо-квадратов, некоторые люди по разным причинам захотят продолжать использовать их хотя бы в определенные моменты времени. То, что я усвоил из моих чтений (и я извиняюсь, что не могу предоставить цитаты в настоящее время), - то, что
если они оба выше .5, Наг. будем; и
если они колеблются .5, Пунт.
Кроме того, формула, результаты которой часто попадают между этими двумя, упомянутая Скоттом Менаром в Прикладном логистическом регрессионном анализе (Sage), является
Это обозначено как «L» в таблице ниже.
источник