У меня есть вопрос, который, я думаю, будет довольно простым для многих пользователей.
Я использую модели линейной регрессии для (i) исследования взаимосвязи нескольких объясняющих переменных и моей переменной отклика и (ii) прогнозирования моей переменной отклика с использованием объяснительных переменных.
Одна конкретная объясняющая переменная X, по-видимому, существенно влияет на мою переменную ответа. Чтобы проверить добавленную стоимость этой объясняющей переменной X для целей внеплановых предсказаний моей переменной ответа, я использовал две модели: модель (а), которая использовала все пояснительные переменные, и модель (б), которая использовала все переменные за исключением переменной X. Для обеих моделей я сообщаю исключительно о производительности вне выборки. Похоже, что обе модели работают почти одинаково хорошо. Другими словами, добавление пояснительной переменной X не улучшает прогнозирование вне выборки. Обратите внимание, что я также использовал модель (а), то есть модель со всеми объясняющими переменными, чтобы найти, что объясняющая переменная X существенно влияет на мою переменную ответа.
Мой вопрос сейчас: как интерпретировать эту находку? Простой вывод заключается в том, что, хотя переменная X, по-видимому, значительно влияет на мою переменную ответа с использованием логических моделей, она не улучшает прогнозирование вне выборки. Однако у меня возникли проблемы с дальнейшим объяснением этого вывода. Как это может быть возможно и каковы некоторые объяснения этого открытия?
Заранее спасибо!
Дополнительная информация: с «значительным влиянием» я имею в виду, что 0 не входит в самый высокий 95% -й апостериорный интервал плотности оценки параметров (я использую байесовский подход). В частых терминах это примерно соответствует р-значению ниже 0,05. Я использую только диффузные (неинформативные) априоры для всех параметров моей модели. Мои данные имеют продольную структуру и содержат в общей сложности около 7000 наблюдений. Для прогнозов вне выборки я использовал 90% данных, чтобы соответствовать моим моделям, и 10% данных, чтобы оценить модели, используя множественные репликации. То есть я несколько раз проводил тест-разделение на поезда и в итоге сообщал о средних показателях производительности.
Ответы:
Когда конкретный предиктор статистически значим, на самом деле это не означает, что он также значительно улучшает прогнозирующую эффективность модели. Прогнозируемая эффективность больше связана с величиной эффекта. В качестве примера, нижеприведенная функция имитирует данные из модели линейной регрессии с двумя предикторамир2
x1
иx2
, и подходит для двух моделей, одна с обоимиx1
иx2
, и одна сx1
одним. В функции вы можете изменить размер эффекта дляx2
. Функция сообщает доверительные интервалы для коэффициентовx1
иx2
и значения двух моделей в качестве показателя прогнозирующей эффективности.Функция:
Например, для значений по умолчанию мы получаем,
Такр2
x2
значительно, и не включая его в модели имеет большое влияние на .Но если мы установим размер эффекта на 0,3, мы получим:
Коэффициент все еще значительный, но улучшение очень мало.р2
источник
Это довольно нормальная вещь для множественной регрессии. Наиболее распространенная причина заключается в том, что ваши предикторы связаны друг с другом. Другими словами, вы можете вывести X из значений других предикторов. Поэтому, хотя это полезно для предсказаний, если это единственный предиктор, который у вас есть, если у вас есть все другие предикторы, он не предоставляет много дополнительной информации. Вы можете проверить, так ли это, регрессируя X на других предикторах. Я также хотел бы сослаться на главу о линейной регрессии в бесплатном онлайн-учебнике «Элементы статистического обучения».
источник