У меня есть данные с несколькими тысячами функций, и я хочу сделать рекурсивный выбор функций (RFE), чтобы удалить неинформативные. Я делаю это с помощью карета и РСЕ. Однако я начал думать, если я хочу получить наилучшее соответствие регрессии (например, случайный лес), когда мне следует выполнить настройку параметров ( mtry
для RF)? То есть, как я понимаю, карета многократно тренирует RF на разных подмножествах функций с фиксированным mtry. Я полагаю, что оптимум mtry
должен быть найден после завершения выбора функции, но повлияет ли mtry
значение, которое использует каретка, на выбранный набор функций? Использование каретки с низкой mtry
скоростью, конечно, намного быстрее.
Надеюсь, кто-нибудь сможет мне это объяснить.
Ответы:
Одна вещь, которую вы, возможно, захотите рассмотреть, - это упорядоченные случайные леса, специально разработанные для выбора объектов. Эта статья объясняет концепцию, и как они отличаются от обычных случайных лесов
Выбор функций через регулярные деревья
Также есть пакет CRAN RRF , построенный на randomForest, который позволит вам легко реализовать их в R. Мне самому повезло с этой методологией.
Что касается вашего первоначального вопроса, единственный совет, который я могу дать, это то, что если у вас много коллинеарности, вам нужно использовать дерево меньшего размера. Это позволяет алгоритму определять важность с меньшими помехами от эффектов коллинеарности.
источник
Вы можете использовать
caretFuncs
что-то вроде этого:Также можно проверить
valSelRF
пакет. Не уверен, чем он отличается отregularized random forest
упомянутого здесь.источник