Я исследую взаимодействие между двумя переменными ( и ). Между этими переменными существует значительная линейная корреляция с . Исходя из природы проблемы, я не могу ничего сказать о причинно-следственной связи ( вызывает ли или наоборот). Я хотел бы изучить отклонения от линии регрессии, чтобы обнаружить выбросы. Чтобы сделать это, я могу построить линейную регрессию как функцию или наоборот. Может ли мой выбор переменного порядка повлиять на мои результаты?
regression
outliers
linear-model
Джордж
источник
источник
Ответы:
Это, безусловно, может (на самом деле, это имеет значение даже в отношении предположений о ваших данных - вы только делаете предположения о распределении результатов с учетом ковариации). В этом свете вы можете найти термин «обратная дисперсия предсказания». В любом случае, линейная регрессия ничего не говорит о причинности! В лучшем случае, вы можете сказать что-то о причинно-следственной связи через тщательный дизайн.
источник
Для того, чтобы случай симметричного, один может регрессировать разницу между этими двумя переменными ( ) против их среднего значения.Δ х
источник
Стандартная регрессия минимизирует вертикальное расстояние между точками и линией, поэтому переключение двух переменных теперь минимизирует горизонтальное расстояние (при том же графике рассеяния). Другой вариант (который называется несколькими именами) - минимизировать перпендикулярное расстояние, это можно сделать с помощью основных компонентов.
Вот некоторый код R, который показывает различия:
Чтобы найти выбросы, вы можете просто построить результаты анализа основных компонентов.
Вы также можете посмотреть на:
источник
Ваши переменные x1 и x2 коллинеарны. При наличии мультиколлинеарности ваши оценки параметров по-прежнему несмещены, но их дисперсия велика, т. Е. Ваш вывод о значимости оценок параметров неверен, и ваш прогноз будет иметь большие доверительные интервалы.
Интерпретация оценок параметров также затруднена. В рамках линейной регрессии оценка параметра на x1 - это изменение Y для изменения единицы на x1, учитывая, что каждая другая экзогенная переменная в модели остается постоянной. В вашем случае x1 и x2 сильно коррелированы, и вы не можете держать x2 постоянным, когда x1 меняется.
источник