Почему результаты моего случайного леса такие переменные?

10

Я пытаюсь проверить способность случайного леса классифицировать выборки между 2 группами; Для классификации используются 54 образца и различное количество переменных.

Мне было интересно, почему оценки «вне сумки» могут отличаться на 5% друг от друга, даже если я использую 50 000 деревьев? Может ли это помочь с начальной загрузкой?

Sethzard
источник
6
У вас есть несколько образцов. 50 тысяч деревьев не имеют никакого смысла с таким небольшим количеством образцов. Скорее всего, это всего лишь одна выборка, неправильно классифицированная между сериями.
Это
@ThiS Я думал, что увеличение количества деревьев уменьшит количество отклонений, которые я получаю. Есть ли способ уменьшить его до нуля или узнать, какой из них наиболее точный?
Сетзард

Ответы:

12

Есть два источника отклонения OOB. Одним из них является случайность самой процедуры; это можно уменьшить, увеличив количество деревьев.

Другим источником различий является неснижаемое несовершенство наличия ограниченных данных и жизни в сложном мире. Увеличение количества деревьев не может это исправить.

Кроме того, иногда просто не хватает данных для решения проблемы. Например, представьте, что два экземпляра имеют противоположные метки, но идентичные значения объектов. Один из этих образцов всегда будет неправильно классифицирован. (Это крайний пример, но он иллюстрирует, как некоторые проблемы можно решить. Мы можем несколько ослабить его, рассматривая крошечное возмущение для одного вектора; теперь оно обычно классифицируется так же, как и его двойник, но не всегда.) Чтобы решить эту проблему Вам нужно будет собрать дополнительные измерения, чтобы еще больше различать две точки.

Увеличение количества деревьев может уменьшить дисперсию оценки чего-то вроде . Рассмотрим результаты из центральной предельной теоремы: увеличение размера выборки может уменьшить дисперсию статистики, как в среднем, но не устранить ее. Прогнозы случайных лесов - это среднее значение всех прогнозов деревьев, и сами эти прогнозы являются случайными переменными (из-за начальной загрузки и случайного подмножества объектов; оба происходят независимо, поэтому голоса также идентифицируются). CLT обеспечивает, что приближается к нормальному распределению , где - истинное среднее предсказание иˉ x ˉ x ˉ xN ( μ , σ 2п(Yзнак равно1|Икс)Икс¯Икс¯μσ2 ˉ x σ2=0Икс¯~N(μ,σ2N)μσ2дисперсия голосов деревьев. (Голоса принимают значения либо 0, либо 1, поэтому среднее количество голосов имеет конечную дисперсию.) Дело в том, что удвоение количества деревьев приведет к уменьшению дисперсии пополам, но не приведет к нуль. Икс¯(За исключением случаев, когда , но мы знаем, что это не так.)σ2знак равно0

Неприводимая дисперсия не может быть исправлена ​​с помощью начальной загрузки. Более того, случайные леса уже загружены; это одна из причин того, что в названии есть «случайный». (Другая причина в том, что случайное подмножество объектов выбирается при каждом разделении.)

Sycorax говорит восстановить Монику
источник