В моем понимании, сильно коррелированные переменные не будут вызывать проблемы мультиколлинеарности в модели случайного леса (пожалуйста, исправьте меня, если я ошибаюсь). Однако, с другой стороны, если у меня будет слишком много переменных, содержащих аналогичную информацию, будет ли модель слишком весить для этого набора, а не для других?
Например, есть два набора информации (A, B) с одинаковой предсказательной силой. Все переменные , , ... содержат информацию A, и только Y содержит информацию B. При случайных переменных выборки большая часть деревьев будет расти на информации A, и в результате информация B будет получена не полностью ?
multicollinearity
что НЕТ влияния на модель случайного леса. Например, здесь , в ответе, получившем наибольшее количество голосов, говорится, что «никакая часть модели случайного леса не подвергается воздействию коллинеарных переменных». Имеет ли это какое-либо значение?Старый поток, но я не согласен с общим утверждением, что коллинеарность не проблема с моделями случайных лесов. Когда набор данных имеет два (или более) коррелированных объекта, то с точки зрения модели любой из этих коррелированных объектов может быть использован в качестве предиктора, без конкретного предпочтения одного из них другим.
Однако, как только один из них используется, важность других значительно уменьшается, поскольку эффективно удаляемая примесь уже удаляется с помощью первой функции.
Как следствие, они будут иметь меньшее сообщаемое значение. Это не проблема, когда мы хотим использовать выбор объектов для уменьшения переоснащения, поскольку имеет смысл удалять функции, которые в основном дублируются другими функциями, но при интерпретации данных это может привести к неверному выводу о том, что одна из переменных сильный предсказатель, в то время как другие в той же группе не важны, в то время как на самом деле они очень близки с точки зрения их связи с переменной ответа.
Эффект этого явления несколько уменьшается благодаря случайному выбору объектов при создании каждого узла, но в целом эффект не удаляется полностью.
Вышеперечисленное в основном извлечено здесь: выбор хороших функций
источник