Какими должны быть оптимальные параметры для классификатора Random Forest?

14

В настоящее время я использую набор инструментов RF на MATLAB для двоичной классификации.

Набор данных: 50000 образцов и более 250 функций

Так, каково должно быть количество деревьев и случайным образом выбранная особенность на каждом разделении, чтобы вырастить деревья? Может ли какой-либо другой параметр сильно повлиять на результаты?

Ризван
источник

Ответы:

8

Выберите большое количество деревьев, скажем, 100. Из того, что я прочитал в Интернете, выберите случайно выбранные функции. Однако в оригинальной статье Брейман использовал около ближайшего целого числа к .250журналMжурнал2

Я бы сказал, что перекрестная проверка обычно является ключом к поиску оптимальных параметров, но я не знаю достаточно о случайных лесах.

котелок с выпуклым днищем
источник
1+журнал2M
Спасибо, я обновил ссылку. Теперь прямо в Беркли.
Вок
12

Количество деревьев чем больше, тем лучше. Вы почти не можете перескочить с этим параметром, но, конечно, верхний предел зависит от вычислительного времени, которое вы хотите потратить на RF.
Хорошая идея - сначала создать длинный лес, а затем увидеть (надеюсь, что он доступен в реализации MATLAB), когда точность OOB сходится.

Количество проверенных атрибутов по умолчанию - квадратный корень из целого числа атрибутов, но обычно лес не очень чувствителен к значению этого параметра - на самом деле он редко оптимизируется, особенно потому, что стохастический аспект RF может вносить большие вариации.


источник
7

Количество деревьев чем больше, тем лучше: согласовано.

Количество проверенных атрибутов будет зависеть. Если у вас уже есть некоторые априорные сведения о том, как распространяется информация или нет среди функций. Если информация используется многими функциями, лучшие результаты получаются при меньшем значении этого параметра. Хотя, с другой стороны, если информацию несут только несколько функций, вы должны использовать большие значения. Другими словами, со многими соответствующими переменными: чем меньше значения, тем лучше, а со многими не относящимися к делу переменными: чем больше значения, тем лучше.

0asa
источник
1
Хотя ваше утверждение о количестве проверенных атрибутов имеет смысл, есть ли у вас цитата для этого?
Джеймс Оверс
Я бы порекомендовал прочитать этот тезис: github.com/glouppe/phd-thesis, а также этот: orbi.ulg.ac.be/handle/2268/25737
0asa