Значение p-значения переменных модели логистической регрессии

9

Итак, я работаю с моделями логистической регрессии в R. Хотя я все еще новичок в статистике, я чувствую, что уже получил некоторое понимание моделей регрессии, но есть еще кое-что, что меня беспокоит:

Глядя на связанный рисунок, вы видите итоговую R-печать для примера модели, которую я создал. Модель пытается предсказать, если письмо в наборе данных будет восстанавливать или нет (бинарная переменная isRefound) и набор данных содержит две переменные тесно связаны с isRefound, а именно next24и next7days- они также являются бинарными и сказать , если почта будет нажата в следующем 24 часа / следующие 7 дней с текущей точки в журналах.

Высокое значение p должно указывать, что влияние этой переменной на прогноз модели довольно случайно, не так ли? Исходя из этого, я не понимаю, почему точность предсказаний моделей падает ниже 10%, когда эти две переменные не учитываются в формуле расчета. Если эти переменные имеют столь низкое значение, почему удаление их из модели оказывает такое большое влияние?

С наилучшими пожеланиями и заранее спасибо, Rickyfox

введите описание изображения здесь


РЕДАКТИРОВАТЬ:

Сначала я удалил только next24, что должно дать низкий эффект, потому что это довольно мало. Как и ожидалось, мало что изменилось - не собираюсь загружать фото для этого.

Удаление в следующие 7 дней оказало большое влияние на модель: AIC увеличился на 200 тыс., Точность снизилась до 16%, а отзыв до 73%.

введите описание изображения здесь

deemel
источник
1
Что если у вас есть isRefound ~ day + next24и пропущены все остальные переменные?
Смиллиг

Ответы:

11

По сути, похоже, что у вас проблема мультиколлинеарности. Об этом доступно много материалов, начиная с этого сайта или в Википедии.

Вкратце, эти два предиктора, по-видимому, действительно связаны с вашим результатом, но они также, вероятно, сильно коррелируют друг с другом (обратите внимание, что при наличии более двух переменных все еще возможно возникновение проблем мультиколлинеарности без сильных двумерных корреляций). Это, конечно, имеет большой смысл: все электронные письма, нажатые в течение 24 часов, также были нажаты в течение 7 дней (по определению), и большинство электронных писем, вероятно, вообще не были нажаты (ни в течение 24 часов, ни в течение 7 дней).

Один из способов, который это показывает в представленном вами результате, - это невероятно большие стандартные ошибки / CI для соответствующих коэффициентов (судя по тому факту, что вы используете bigglm и что даже крошечные коэффициенты очень значительны, кажется, что размер вашей выборки должен быть более чем достаточным чтобы получить хорошие оценки). Другие вещи, которые вы можете сделать, чтобы обнаружить проблемы такого типа: посмотрите на парные корреляции, удалите только одну из подозреваемых переменных (как предложено @Nick Sabbe), проверьте значимость для обеих переменных совместно.

В более общем смысле, высокие значения p не означают, что эффект является небольшим или случайным, но только то, что нет никаких доказательств того, что коэффициент отличается от 0. Он также может быть очень большим, вы просто не знаете (либо потому, что выборка размер слишком мал или из-за других проблем с моделью).

гала
источник
1
Обратите внимание, что новый вывод, который вы опубликовали, предполагает, что некоторые другие переменные также могут быть вовлечены (или что есть еще одна проблема, которую я не видел), потому что в противном случае вы ожидаете, что SE будет намного ниже, когда включена только одна из двух переменных. ,
Гала
Да, уже заметил это, но спасибо. Позже я сделаю правку, чтобы вы знали, что могло вызвать это, если вам это интересно
подумайте