У меня есть бинарная модель логистической регрессии с псевдо R-квадратом Макфаддена 0,192 с зависимой переменной, называемой платежом (1 = оплата и 0 = нет оплаты). Какова интерпретация этого псевдо R-квадрата?
Является ли это относительным сравнением для вложенных моделей (например, модель с 6 переменными имеет псевдо R-квадрат Макфаддена 0,192, тогда как модель с 5 переменными (после удаления одной переменной из вышеупомянутой модели с 6 переменными), эта модель с 5 переменными имеет псевдо R в квадрате 0,131. Хотели бы мы сохранить эту шестую переменную в модели?) или это абсолютная величина (например, данная модель, у которой псевдо R-квадрат Макфаддена равен 0,192, лучше, чем любая существующая модель с псевдо-индексом Макфаддена?) R-квадрат 0,180 (даже для не вложенных моделей) - это просто возможные способы взглянуть на псевдо-R-квадрат Макфаддена, однако я полагаю, что эти два представления далеко, и поэтому я задаю этот вопрос здесь.
Я провел много исследований по этой теме, и мне еще предстоит найти ответ, который я ищу, с точки зрения возможности интерпретировать псевдо R-квадрат Макфаддена 0,192. Любое понимание и / или ссылки с благодарностью! Прежде чем ответить на этот вопрос, я знаю, что это не лучшая мера для описания модели логистической регрессии, но я хотел бы иметь лучшее понимание этой статистики независимо!
источник
Квадрат R Макфаддена определяется как 1-l_mod / l_null, где l_mod - значение логарифмического правдоподобия для подобранной модели, а l_null - логарифмическое правдоподобие для нулевой модели, которая включает в себя только перехват в качестве предиктора (так что каждый индивидуум прогнозируется с одинаковой вероятностью «успеха»).
Для модели логистической регрессии значение логарифмического правдоподобия всегда отрицательно (поскольку вклад правдоподобия от каждого наблюдения составляет вероятность от 0 до 1). Если ваша модель на самом деле не предсказывает результат лучше, чем нулевая модель, l_mod не будет намного больше, чем l_null, и поэтому l_mod / l_null составляет приблизительно 1, а квадрат Макфаддена R близок к 0 (ваша модель не имеет прогнозирующего значения) ,
И наоборот, если ваша модель действительно хороша, у людей с успешным (1) исходом будет подходящая вероятность, близкая к 1, и наоборот для лиц с неудачным (0) исходом. В этом случае, если вы пройдете расчет вероятности, вклад вероятности от каждого индивидуума для вашей модели будет близок к нулю, так что l_mod близок к нулю, а квадрат Макфаддена R близок к 1, что указывает на очень хорошую способность к предсказанию.
Что касается того, что можно считать хорошей ценностью, то, по моему личному мнению, подобные статистические вопросы (например, что представляет собой большую корреляцию?) Никогда не могут быть окончательным ответом. В прошлом году я написал сообщение в блоге о квадрате Макфаддена R в логистической регрессии, в котором есть некоторые дополнительные иллюстрации моделирования.
источник
Я провел более целенаправленное исследование на эту тему и обнаружил, что интерпретации псевдо R-квадрата Макфаддена (также известный как индекс отношения правдоподобия) не ясны; однако он может варьироваться от 0 до 1, но никогда не достигнет или превысит 1 в результате своего вычисления.
Эмпирическое правило, которое я нашел весьма полезным, заключается в том, что псевдо R-квадрат Макфаддена в диапазоне от 0,2 до 0,4 указывает на очень хорошее соответствие модели. Таким образом, упомянутая выше модель с псевдо R-квадратом Макфаддена 0,192, вероятно, не является ужасной моделью, по крайней мере, по этой метрике, но она также не особенно сильна.
Также важно отметить, что псевдо R-квадрат Макфаддена лучше всего использовать для сравнения различных характеристик одной и той же модели (то есть вложенных моделей). Ссылаясь на вышеупомянутый пример, модель с 6 переменными (псевдо R-квадрат Макфаддена = 0,192) соответствует данным лучше, чем модель с 5 переменными (псевдо R-квадрат Макфаддена = 0,131), которую я формально протестировал с помощью теста логарифмического отношения правдоподобия , что указывает на существенную разницу ( p <0,001) между двумя моделями, и, таким образом, модель с 6 переменными является предпочтительной для данного набора данных.
источник
http://cowles.yale.edu/sites/default/files/files/pub/d04/d0474.pdf
источник