Я обучил модели линейной регрессии, используя набор переменных / функций. И модель имеет хорошие показатели. Однако я понял, что нет переменной с хорошей корреляцией с прогнозируемой переменной. Как это возможно?
17
Я обучил модели линейной регрессии, используя набор переменных / функций. И модель имеет хорошие показатели. Однако я понял, что нет переменной с хорошей корреляцией с прогнозируемой переменной. Как это возможно?
Ответы:
Пара переменных может показывать высокую частичную корреляцию (корреляцию, учитывающую влияние других переменных), но низкую или даже нулевую маржинальную корреляцию (попарная корреляция).
Это означает, что попарная корреляция между откликом y и некоторым предиктором x может иметь небольшое значение при идентификации подходящих переменных с (линейным) «прогнозирующим» значением среди совокупности других переменных.
Рассмотрим следующие данные:
Корреляция между y и x равна . Если я рисую линию наименьших квадратов, она совершенно горизонтальная и R 20 R2 будет .0
Но когда вы добавляете новую переменную g, которая указывает, из какой группы пришли наблюдения, x становится чрезвычайно информативным:
Подобные вещи могут происходить с каждой из переменных в модели - все они имеют небольшую попарную корреляцию с откликом, но модель, в которой они все присутствуют, очень хорошо предсказывает отклик.
Дополнительное чтение:
https://en.wikipedia.org/wiki/Omitted-variable_bias
https://en.wikipedia.org/wiki/Simpson%27s_paradox
источник
Я предполагаю, что вы тренируете модель множественной регрессии, в которой у вас есть несколько независимых переменных , X 2X1 X2 , ..., регрессирующих на Y. Простой ответ здесь - это попарная корреляция, подобная работе недостаточно определенной регрессионной модели. Таким образом, вы пропустили важные переменные.
Более конкретно, когда вы заявляете, что «нет переменной с хорошей корреляцией с прогнозируемой переменной», это звучит так, как будто вы проверяете попарную корреляцию между каждой независимой переменной с зависимой переменной, Y. Это возможно, когда вносит важный новая информация и помогает прояснить противоречие между X 1 и Y. Однако при таком смешении мы можем не увидеть линейную попарную корреляцию между XX2 X1 и Y. Вы также можете проверить связь между частичной корреляцией ρ x 1 , у | х 2 и множественная регрессия у = β 1X1 ρx1,y|x2 . Множественная регрессия имеет более тесную связь с частичной корреляцией, чем парная корреляция, ρ x 1 , y .y=β1X1+β2X2+ϵ ρx1,y
источник
источник