В настоящее время я использую набор инструментов RF на MATLAB для двоичной классификации.
Набор данных: 50000 образцов и более 250 функций
Так, каково должно быть количество деревьев и случайным образом выбранная особенность на каждом разделении, чтобы вырастить деревья? Может ли какой-либо другой параметр сильно повлиять на результаты?
Количество деревьев чем больше, тем лучше. Вы почти не можете перескочить с этим параметром, но, конечно, верхний предел зависит от вычислительного времени, которое вы хотите потратить на RF.
Хорошая идея - сначала создать длинный лес, а затем увидеть (надеюсь, что он доступен в реализации MATLAB), когда точность OOB сходится.
Количество проверенных атрибутов по умолчанию - квадратный корень из целого числа атрибутов, но обычно лес не очень чувствителен к значению этого параметра - на самом деле он редко оптимизируется, особенно потому, что стохастический аспект RF может вносить большие вариации.
источник
Количество деревьев чем больше, тем лучше: согласовано.
Количество проверенных атрибутов будет зависеть. Если у вас уже есть некоторые априорные сведения о том, как распространяется информация или нет среди функций. Если информация используется многими функциями, лучшие результаты получаются при меньшем значении этого параметра. Хотя, с другой стороны, если информацию несут только несколько функций, вы должны использовать большие значения. Другими словами, со многими соответствующими переменными: чем меньше значения, тем лучше, а со многими не относящимися к делу переменными: чем больше значения, тем лучше.
источник