Не будут ли сильно коррелированные переменные в случайном лесу искажать точность и выбор характеристик?

32

В моем понимании, сильно коррелированные переменные не будут вызывать проблемы мультиколлинеарности в модели случайного леса (пожалуйста, исправьте меня, если я ошибаюсь). Однако, с другой стороны, если у меня будет слишком много переменных, содержащих аналогичную информацию, будет ли модель слишком весить для этого набора, а не для других?

Например, есть два набора информации (A, B) с одинаковой предсказательной силой. Все переменные X1 , , ... содержат информацию A, и только Y содержит информацию B. При случайных переменных выборки большая часть деревьев будет расти на информации A, и в результате информация B будет получена не полностью ?X2X1000

Yoki
источник

Ответы:

19

Это правильно, но поэтому в большинстве тех подвыборок, где была доступна переменная Y, это дало бы наилучшее возможное разделение.

Вы можете попытаться увеличить mtry, чтобы это происходило чаще.

R2<.7

Вы можете попробовать рекурсивное сокращение важности переменной, которое по очереди удаляется, например, 20% с самой низкой переменной важности. Попробуйте, например, rfcv из пакета randomForest.

Вы можете попробовать некоторую декомпозицию / агрегацию ваших избыточных переменных.

Сорен Хавелунд Веллинг
источник
3
В некоторых источниках я видел, multicollinearityчто НЕТ влияния на модель случайного леса. Например, здесь , в ответе, получившем наибольшее количество голосов, говорится, что «никакая часть модели случайного леса не подвергается воздействию коллинеарных переменных». Имеет ли это какое-либо значение?
Hunle
5
Я думаю, что вы читаете НЕТ слишком буквально. Радиочастотные модели обрабатывают достаточно хорошо коррелированные / избыточные переменные, да. Но это не означает, что ваша модель обязательно извлекает выгоду из запаса несвязанных или полностью избыточных переменных (например, линейных рекомбинаций), она также не дает сбоя. Я выступаю только за скромный выбор переменных, чтобы ожидать скромного улучшения кросс-проверенной производительности модели.
Сорен Хавелунд Веллинг
24

Старый поток, но я не согласен с общим утверждением, что коллинеарность не проблема с моделями случайных лесов. Когда набор данных имеет два (или более) коррелированных объекта, то с точки зрения модели любой из этих коррелированных объектов может быть использован в качестве предиктора, без конкретного предпочтения одного из них другим.

Однако, как только один из них используется, важность других значительно уменьшается, поскольку эффективно удаляемая примесь уже удаляется с помощью первой функции.

Как следствие, они будут иметь меньшее сообщаемое значение. Это не проблема, когда мы хотим использовать выбор объектов для уменьшения переоснащения, поскольку имеет смысл удалять функции, которые в основном дублируются другими функциями, но при интерпретации данных это может привести к неверному выводу о том, что одна из переменных сильный предсказатель, в то время как другие в той же группе не важны, в то время как на самом деле они очень близки с точки зрения их связи с переменной ответа.

Эффект этого явления несколько уменьшается благодаря случайному выбору объектов при создании каждого узла, но в целом эффект не удаляется полностью.

Вышеперечисленное в основном извлечено здесь: выбор хороших функций

GDB
источник
3
This has been my go to article for feature selection with RF, as variable importance is often used as metric bmcbioinformatics.biomedcentral.com/articles/10.1186/… Since two years ago I have become more skeptic of feature selection.Feature selection yields overoptimistic cross-validation if not done within a proper outer cross-validation loop. If done properly, I often see none or only little optimization of prediction performance. Now I mainly use feature selection to simplify prediction machines in production or to make a final model more transparent.
Soren Havelund Welling
@SorenHavelundWelling - Вы говорите, что «Выбор функции приводит к чрезмерной оптимистической перекрестной проверке, если она не выполнена в правильном внешнем цикле перекрестной проверки». Вы можете объяснить это или обратиться к источнику, объясняющему это? Это идет вразрез со всем, что я до сих пор читал ...
Джек Флитинг
stats.stackexchange.com/questions/27750/…
Сорен Хавелунд Веллинг