Итак, я работаю с моделями логистической регрессии в R. Хотя я все еще новичок в статистике, я чувствую, что уже получил некоторое понимание моделей регрессии, но есть еще кое-что, что меня беспокоит:
Глядя на связанный рисунок, вы видите итоговую R-печать для примера модели, которую я создал. Модель пытается предсказать, если письмо в наборе данных будет восстанавливать или нет (бинарная переменная isRefound
) и набор данных содержит две переменные тесно связаны с isRefound
, а именно next24
и next7days
- они также являются бинарными и сказать , если почта будет нажата в следующем 24 часа / следующие 7 дней с текущей точки в журналах.
Высокое значение p должно указывать, что влияние этой переменной на прогноз модели довольно случайно, не так ли? Исходя из этого, я не понимаю, почему точность предсказаний моделей падает ниже 10%, когда эти две переменные не учитываются в формуле расчета. Если эти переменные имеют столь низкое значение, почему удаление их из модели оказывает такое большое влияние?
С наилучшими пожеланиями и заранее спасибо, Rickyfox
РЕДАКТИРОВАТЬ:
Сначала я удалил только next24, что должно дать низкий эффект, потому что это довольно мало. Как и ожидалось, мало что изменилось - не собираюсь загружать фото для этого.
Удаление в следующие 7 дней оказало большое влияние на модель: AIC увеличился на 200 тыс., Точность снизилась до 16%, а отзыв до 73%.
источник
isRefound ~ day + next24
и пропущены все остальные переменные?Ответы:
По сути, похоже, что у вас проблема мультиколлинеарности. Об этом доступно много материалов, начиная с этого сайта или в Википедии.
Вкратце, эти два предиктора, по-видимому, действительно связаны с вашим результатом, но они также, вероятно, сильно коррелируют друг с другом (обратите внимание, что при наличии более двух переменных все еще возможно возникновение проблем мультиколлинеарности без сильных двумерных корреляций). Это, конечно, имеет большой смысл: все электронные письма, нажатые в течение 24 часов, также были нажаты в течение 7 дней (по определению), и большинство электронных писем, вероятно, вообще не были нажаты (ни в течение 24 часов, ни в течение 7 дней).
Один из способов, который это показывает в представленном вами результате, - это невероятно большие стандартные ошибки / CI для соответствующих коэффициентов (судя по тому факту, что вы используете bigglm и что даже крошечные коэффициенты очень значительны, кажется, что размер вашей выборки должен быть более чем достаточным чтобы получить хорошие оценки). Другие вещи, которые вы можете сделать, чтобы обнаружить проблемы такого типа: посмотрите на парные корреляции, удалите только одну из подозреваемых переменных (как предложено @Nick Sabbe), проверьте значимость для обеих переменных совместно.
В более общем смысле, высокие значения p не означают, что эффект является небольшим или случайным, но только то, что нет никаких доказательств того, что коэффициент отличается от 0. Он также может быть очень большим, вы просто не знаете (либо потому, что выборка размер слишком мал или из-за других проблем с моделью).
источник