И B, и E получены из V. B и E явно не являются «независимыми» переменными друг от друга. Базовая переменная, которая действительно имеет значение здесь, - это V. Вы, вероятно, должны игнорировать и B, и E в этом случае, и оставить только V.
В более общей ситуации, когда у вас есть две независимые переменные, которые очень сильно коррелированы, вам определенно следует удалить одну из них, потому что вы столкнетесь с головоломкой мультиколлинеарности, и коэффициенты регрессии вашей модели регрессии, связанные с этими двумя высококоррелированными переменными, будут ненадежными. Кроме того, в простом английском языке, если две переменные настолько сильно коррелированы, они, очевидно, передадут почти точно такую же информацию в вашу регрессионную модель. Но, включив оба, вы фактически ослабляете модель. Вы не добавляете дополнительную информацию. Вместо этого вы наполняете свою модель шумом. Не очень хорошая вещь.
Один из способов сохранить в вашей модели сильно коррелированные переменные - это использовать вместо регрессии модель анализа основных компонентов (PCA). Модели PCA созданы, чтобы избавиться от мультиколлинеарности. Компромисс состоит в том, что в результате вы получаете два или три основных компонента в вашей модели, которые часто являются просто математическими конструкциями и в значительной степени непостижимы с логической точки зрения. Поэтому PCA часто отбрасывают как метод всякий раз, когда вам приходится представлять свои результаты внешней аудитории, такой как менеджмент, регуляторы и т. Д. Модели PCA создают загадочные черные ящики, которые очень сложно объяснить.
Вот ответ с точки зрения обучающегося машинам, хотя я боюсь, что меня за это побьют настоящие статистики.
Могу ли я просто «выбросить» одну из переменных?
Вопрос в том, какую модель вы хотите использовать для прогнозирования. Это зависит, например, от ...
Иногда мы, изучающие машины, даже выполняем генетическую оптимизацию, чтобы найти лучшую арифметическую комбинацию набора предикторов.
источник
B представляет собой линейное преобразование V. E представляет взаимодействие между V и D. Рассматривали ли вы вопрос определения модели Y = Intercept + V + D + V: D? Как подсказывает @ euphoria83, похоже, что разница в D невелика, поэтому она может не решить вашу проблему; однако это должно по крайней мере сделать ясным независимый вклад V и D. Обязательно центрируйте оба V и D заранее.
источник
Если D не является константой, то B и E фактически являются двумя разными переменными из-за различий в D. Высокая корреляция указывает на то, что D практически постоянен во всех данных тренировки. Если это так, то вы можете отказаться от B или E.
источник