Сколько функций для выборки с использованием случайных лесов

13

На странице Википедии, которая цитирует «Элементы статистического обучения», написано:

Как правило, для задачи классификации с функциями, п функции используются в каждом разделении.п

Я понимаю, что это довольно обоснованное предположение, и оно, вероятно, подтверждается эмпирическими данными, но есть ли другие причины, по которым можно было бы выбрать квадратный корень? Есть ли там статистический феномен?

Это как-то помогает уменьшить дисперсию ошибок?

Это то же самое для регрессии и классификации?

Валентин Каломм
источник

Ответы:

16

Я думаю, что в оригинальной статье они предлагают использовать ), но в любом случае идея заключается в следующем:журнал2(N+1

Количество случайно выбранных объектов может влиять на ошибку обобщения двумя способами: выбор многих объектов увеличивает прочность отдельных деревьев, тогда как уменьшение количества объектов приводит к снижению корреляции между деревьями, что увеличивает прочность леса в целом.

Интересно, что авторы Случайных лесов» (pdf) находят эмпирическую разницу между классификацией и регрессией:

Интересная разница между регрессией и классификацией заключается в том, что корреляция увеличивается довольно медленно по мере увеличения количества используемых признаков.

N/3N .

В целом, нет четкого обоснования NжурналN для задач классификации, отличных от тех, которые показали, что более низкая корреляция между деревьями может уменьшить ошибку обобщения достаточно, чтобы более чем компенсировать уменьшение силы отдельных деревьев. В частности, авторы отмечают, что диапазон, в котором этот компромисс может уменьшить ошибку обобщения, довольно велик:

Промежуточный диапазон обычно велик. В этом диапазоне по мере увеличения числа признаков корреляция увеличивается, но PE * (дерево) компенсируется уменьшением.

(PE * является ошибкой обобщения)

Как говорится в элементах статистического обучения:

На практике наилучшие значения этих параметров будут зависеть от проблемы, и их следует рассматривать как параметры настройки.

Одна вещь, от которой может зависеть ваша проблема - это количество категориальных переменных. Если у вас много категориальных переменных, которые закодированы как фиктивные переменные, обычно имеет смысл увеличить параметр. Опять же, из статьи «Случайные леса»:

яNT(Lограмм2M+1)

OW_
источник
Спасибо, это очень полезный ответ. Действительно, я думал, что что-то связано с силой каждого дерева против силы леса в целом. И действительно, очень интересно, что существует такая разница между регрессией и классификацией. Большое спасибо за ссылку на оригинальную статью. Я пытался собрать такие документы для множества техник.
Валентин Каломм