Я использую множественную линейную регрессию для описания отношений между Y и X1, X2.
Из теории я понял, что множественная регрессия предполагает линейные отношения между Y и каждым из X (Y и X1, Y и X2). Я не использую какие-либо преобразования X.
Итак, я получил модель с R = 0,45 и всем значимым X (P <0,05). Затем я построил Y против X1. Я не понимаю, почему красные круги, которые являются предсказаниями модели, не образуют линию. Как я уже говорил, я ожидал, что каждая пара Y и X соединяется линией.
Сюжет генерируется в python следующим образом:
fig, ax = plt.subplots()
plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro');
ax.set_title('blue: true, red: OLS')
ax.set_xlabel('X')
ax.set_ylabel('Y')
plt.show()
Ответы:
Предположим, что ваше уравнение множественной регрессии было
где у означает «предсказал у ».Y^ Y
Теперь возьмите только те точки, для которых . Тогда если участок у от й 1 , эти точки будут удовлетворять уравнение:Икс2= 1 Y^ Икс1
Таким образом, они должны лежать на линии наклона 2 и с перехватом 8.Y
Теперь возьмите те точки, для которых . При печати у противИкс2= 2 Y^ , то эти точки удовлетворяют:x1
Так что это линия наклона 2 с -интерпретом 13. Вы можете убедиться, что если x 2 = 3, то получите другую линию наклона 2, а y -интерпрет равен 18.y x2=3 y
Мы видим, что точки с разными значениями будут лежать на разных линиях, но все с одним и тем же градиентом: значение коэффициента 2 x 1 в исходном уравнении регрессии заключается в том, что при прочих равных условиях, т.е. увеличение единицы в х 1 увеличивается средний прогнозируемый отклик у на две единицы, в то время как значение перехвата 3 в уравнение регрессии было то , что , когда х 1 = 0 и х 2 = 0 , то прогнозируемый средний ответ 3x2 2x1 x1 y^ 3 x1=0 x2=0 3 , Но не все ваши точки имеют одинаковые 2 + 3 .x2 , что означает, что они лежат на линиях с другим пересечением - у линии будет только перехват для тех точек, для которых x 2 = 0 . Таким образом, вместо того, чтобы видеть одну строку, вы можете увидеть (если есть только определенные значения x 2 , например, если x 2 всегда целочисленный), ряд диагональных «полос». Рассмотрим следующие данные, где у = 2 х 1 + 5 х3 x2=0 x2 x2 y^=2x1+5x2+3
Здесь есть заметные "полосы". Теперь, если я закрашу те точки, для которых виде красных кружков, x 2 = 2 в виде золотых треугольников и x 2 = 3 в виде синих квадратов, мы увидим, что они лежат на трех разных линиях, все с уклоном 2, и y -интерцепты 8, 13 и 18, как рассчитано выше. Конечно, если x 2 не был вынужден принимать целочисленные значения, или ситуация осложнялась другими переменными предиктора, включенными в регрессию, то диагональные штрихи были бы менее четкими, но все равно это был бы случай, когда каждая предсказанная точка лежит на отдельной строкеx2=1 x2=2 x2=3 y x2 на основе значений других предикторов, не показанных на графике .
Код для R участков
источник