Что означает «размер узла» в случайном лесу?

20

Я не понимаю точно, что подразумевается под размером узла. Я знаю, что такое узел принятия решения, но не знаю, какой это размер узла.

wolfsatthedoor
источник

Ответы:

24

Дерево решений работает путем рекурсивного разбиения обучающего набора. Каждый узел дерева решений связан с набором данных из обучающего набора:tnt

n_t - размер каждого узла

Вы можете найти этот параметр nodesizeв некоторых пакетах с произвольным лесом, например R : это минимальный размер узла , в приведенном выше примере минимальный размер узла равен 10. Этот параметр неявно устанавливает глубину ваших деревьев.

nodesize из пакета случайных лесов R

Минимальный размер терминальных узлов. Увеличение этого числа приводит к выращиванию деревьев меньшего размера (и, таким образом, занимает меньше времени). Обратите внимание, что значения по умолчанию различаются для классификации (1) и регрессии (5).

В других пакетах вы непосредственно найдете параметр depth, например, WEKA :

-depth из пакета случайных лесов WEKA

Максимальная глубина деревьев 0 для неограниченной. (по умолчанию 0)

Симона
источник
1
Что такое «записи»? Вы имеете в виду точки данных? Почему каждый узел связан с набором записей? Я хорошо понимаю случайные леса, но не знаю, что означает жаргон.
wolfsatthedoor
Да, я имел в виду точку данных. Обычно вы можете ссылаться на точки данных как на записи, экземпляры или примеры.
Симона
Так есть ли практическое правило минимального размера узла, чтобы избежать наложения деревьев? Я предполагаю, что это зависит от размера обучающих данных, так что, возможно, определенная доля размера набора данных?
Seanosapien
1
В случайных лесах деревья полностью выращены: размер узла равен 1. Избегать переоснащения, выращивая много деревьев. В дереве решений это более сложно. Деревья не полностью выращены, и вам нужно выполнять обрезку, чтобы избежать переобучения.
Симона
1
Похоже, что веяние - это некий выбор функций, который упрощает дерево и позволяет избежать переобучения. Я думаю, что обрезка одного дерева всегда полезна. Вместо этого веяние может иногда снижать точность, но упрощает дерево.
Симона
2

Неясно, находится ли размер узла на выборке «в пакете» или на ошибке «вне пакета». Если он находится на выборке «вне пакета», это немного более ограничительно.

Темный рыцарь
источник