Отвечая на этот вопрос, Джон Кристи предложил оценить соответствие моделей логистической регрессии путем оценки остатков. Я знаком с тем, как интерпретировать невязки в OLS, они находятся в том же масштабе, что и DV, и очень четко различие между y и y, предсказанное моделью. Однако для логистической регрессии, в прошлом я обычно только проверял оценки соответствия модели, например, AIC, потому что я не был уверен, что остаток будет означать для логистической регрессии. Посмотрев в помощь АиР файлы немного , я вижу , что в R существует пять типов GLM остатков доступны, c("deviance", "pearson", "working","response", "partial")
. Файл справки относится к:
- Дэвисон, AC и Снелл, EJ (1991) Остатки и диагностика. В кн .: Статистическая теория и моделирование. В честь сэра Дэвида Кокса, ФРС , ред. Хинкли Д.В., Рейд Н. и Снелл Е.Д., Чепмен и Холл.
У меня нет копии этого. Есть ли короткий способ описать, как интерпретировать каждый из этих типов? В логистическом контексте сумма квадратов остатков обеспечит значимую меру соответствия модели или лучше использовать критерий информации?
binnedplot
функция в руке пакета R дает очень полезный график остатков. Это хорошо описано на стр.97-101 Gelman and Hill 2007 .Ответы:
Простейшие остатки для понимания - это отклонения от отклонения, например, в квадрате их сумма в -2 раза больше логарифмической вероятности. В простейших терминах логистическая регрессия может быть понята с точки зрения подгонки функции для известного таким образом, чтобы минимизировать общее отклонение, которое является суммой квадратов остатков отклонения всех точек данных.Xp=logit−1(Xβ) X
Отклонение (квадрат) каждой точки данных равно (-2 раза) логарифму разности между ее прогнозируемой вероятностью и дополнением к ее фактическому значению (1 для контроля; 0 для случая) в абсолютном выражении. Идеальное совпадение точки (которая никогда не встречается) дает отклонение от нуля, так как log (1) равно нулю. Плохо подобранная точка имеет большое остаточное отклонение, так как логарифм очень маленького значения в два раза больше большого числа.logit−1(Xβ)
Выполнение логистической регрессии сродни поиску бета-значения таким образом, чтобы сумма квадратов невязок отклонения была сведена к минимуму.
Это можно проиллюстрировать сюжетом, но я не знаю, как его загрузить.
источник
plogit
? Не было ясно, определяете ли вы это здесь или получаете откуда-то еще.plogit
в R (статистика), пакет не требуется (по крайней мере, больше)На остатки Пирсона,
Остаток Пирсона - это разница между наблюдаемой и оценочной вероятностями, деленная на биномиальное стандартное отклонение оценочной вероятности. Поэтому стандартизация остатков. Для больших образцов стандартизированные остатки должны иметь нормальное распределение.
От Менар, Скотт (2002). Прикладной логистический регрессионный анализ, 2-е издание. Тысяча Оукс, Калифорния: Sage Publications. Серия: Количественные приложения в социальных науках, № 106. Первое издание, 1995. См. Главу 4.4.
источник
Рабочие остатки - это остатки в последней итерации любого итеративно взвешенного метода наименьших квадратов . Я считаю, что это означает невязки, когда мы думаем, что это последняя итерация нашего запуска модели. Это может привести к дискуссии о том, что запуск модели - это итеративное упражнение.
источник