Скажем, у нас есть проблема бинарной классификации с в основном категориальными особенностями. Мы используем некоторую нелинейную модель (например, XGBoost или Случайные Леса), чтобы изучить ее.
- Стоит ли еще беспокоиться о мультиколлинеарности? Почему?
- Если ответ на вышеприведенный ответ верен, как с этим бороться, учитывая, что используются нелинейные модели этих типов?
classification
random-forest
multicollinearity
xgboost
мистифицировать
источник
источник
Опоздал на вечеринку, но в любом случае вот мой ответ, и это «Да», всегда следует беспокоиться о коллинеарности, независимо от того, является ли модель / метод линейным или нет, или основной задачей является прогноз или классификация.
Предположим, что в качестве метода используется ряд линейно коррелированных ковариат / признаков, присутствующих в наборе данных, и случайный лес. Очевидно, что при случайном выборе на узел могут быть выбраны только (или в основном) коллинеарные элементы, которые могут / будут приводить к плохому расщеплению, и это может происходить многократно, что негативно влияет на производительность.
Теперь коллинеарные элементы могут быть менее информативными в отношении результата, чем другие (неколлинеарные) элементы, и поэтому их следует учитывать для исключения из набора функций в любом случае. Тем не менее, предположим, что функции ранжируются высоко в списке «Важность функций», составленном RF. Как таковые они будут храниться в наборе данных, без необходимости увеличивая размерность. Таким образом, на практике, я всегда, в качестве исследовательского шага (из многих связанных) проверяю парную связь признаков, включая линейную корреляцию.
источник
Если нелинейная модель является древовидной моделью, то не стоит считать ее серьезной. Разные модели дерева будут иметь разный метод сделки, например, случайный лес сохранит их обоих (потому что они строят дерево независимо, и случайный выбор объекта для каждого дерева), но это не влияет на эффективность прогнозирования, даже если вы удалите избыточный. Но для xgboost он выберет любого из них и будет использовать его до последнего построения дерева.
Речь идет о значении интерпретации, поэтому предлагается исключить высококорреляционную переменную.
источник
Мультиколлинеарность всегда является возможной проблемой. Переменные, которые являются предикторами в модели, будут влиять на прогноз, когда они линейно связаны (то есть, когда присутствует коллинеарность).
источник