Имеет ли значение переменный порядок в линейной регрессии

9

Я исследую взаимодействие между двумя переменными ( и ). Между этими переменными существует значительная линейная корреляция с . Исходя из природы проблемы, я не могу ничего сказать о причинно-следственной связи ( вызывает ли или наоборот). Я хотел бы изучить отклонения от линии регрессии, чтобы обнаружить выбросы. Чтобы сделать это, я могу построить линейную регрессию как функцию или наоборот. Может ли мой выбор переменного порядка повлиять на мои результаты? $x_1$ $x_2$ $r>0.9$ $x_1$ $x_2$ $x_1$ $x_2$

regression outliers linear-model Джордж
источник

При поиске выбросов сначала следует регрессировать зависимую переменную как в и в и искать выбросы.

x_{1}

$x_{1}$

x_{2}

$x_{2}$

скенектади

Является ли обнаружение выбросов целью вашего расследования? Если это так, то сначала вы должны регрессировать свою зависимую переменную как в и в а затем выполнить выпадающие тесты. Если вы нашли возможную причину, вам следует подумать о проведении спланированного эксперимента. Если цель вашего эксперимента состоит в том, чтобы найти взаимосвязь между двумя вашими независимыми переменными, то изучение случая собранных данных не поможет.

x_{1}

$x_{1}$

x_{2}

$x_{2}$

скенектади

Мне не ясно, что вы подразумеваете под выбросами. Если в ваших данных есть выбросы, то они повлияют на расчет линии регрессии. Почему вы ищете выбросы в обоих

x_{1}

$x_1$ и

одновременно?

x_{2}

$x_2$

DQdlM

@schenectady Используйте $$ для LaTeX в комментариях, пожалуйста.

3

Это, безусловно, может (на самом деле, это имеет значение даже в отношении предположений о ваших данных - вы только делаете предположения о распределении результатов с учетом ковариации). В этом свете вы можете найти термин «обратная дисперсия предсказания». В любом случае, линейная регрессия ничего не говорит о причинности! В лучшем случае, вы можете сказать что-то о причинно-следственной связи через тщательный дизайн.

Ник Саббе
источник

3

Для того, чтобы случай симметричного, один может регрессировать разницу между этими двумя переменными ( ) против их среднего значения. $\Delta x$

Борис Горелик
источник

3

Стандартная регрессия минимизирует вертикальное расстояние между точками и линией, поэтому переключение двух переменных теперь минимизирует горизонтальное расстояние (при том же графике рассеяния). Другой вариант (который называется несколькими именами) - минимизировать перпендикулярное расстояние, это можно сделать с помощью основных компонентов.

Вот некоторый код R, который показывает различия:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

Чтобы найти выбросы, вы можете просто построить результаты анализа основных компонентов.

Вы также можете посмотреть на:

Бланд и Альтман (1986), Статистические методы оценки согласия между двумя методами клинических измерений. Ланцет, стр. 307-310

Грег Сноу
источник

0

Ваши переменные x1 и x2 коллинеарны. При наличии мультиколлинеарности ваши оценки параметров по-прежнему несмещены, но их дисперсия велика, т. Е. Ваш вывод о значимости оценок параметров неверен, и ваш прогноз будет иметь большие доверительные интервалы.

Интерпретация оценок параметров также затруднена. В рамках линейной регрессии оценка параметра на x1 - это изменение Y для изменения единицы на x1, учитывая, что каждая другая экзогенная переменная в модели остается постоянной. В вашем случае x1 и x2 сильно коррелированы, и вы не можете держать x2 постоянным, когда x1 меняется.

yeveee
источник

Имеет ли значение переменный порядок в линейной регрессии

Ответы: