Я пытаюсь проверить способность случайного леса классифицировать выборки между 2 группами; Для классификации используются 54 образца и различное количество переменных.
Мне было интересно, почему оценки «вне сумки» могут отличаться на 5% друг от друга, даже если я использую 50 000 деревьев? Может ли это помочь с начальной загрузкой?
machine-learning
random-forest
Sethzard
источник
источник
Ответы:
Есть два источника отклонения OOB. Одним из них является случайность самой процедуры; это можно уменьшить, увеличив количество деревьев.
Другим источником различий является неснижаемое несовершенство наличия ограниченных данных и жизни в сложном мире. Увеличение количества деревьев не может это исправить.
Кроме того, иногда просто не хватает данных для решения проблемы. Например, представьте, что два экземпляра имеют противоположные метки, но идентичные значения объектов. Один из этих образцов всегда будет неправильно классифицирован. (Это крайний пример, но он иллюстрирует, как некоторые проблемы можно решить. Мы можем несколько ослабить его, рассматривая крошечное возмущение для одного вектора; теперь оно обычно классифицируется так же, как и его двойник, но не всегда.) Чтобы решить эту проблему Вам нужно будет собрать дополнительные измерения, чтобы еще больше различать две точки.
Увеличение количества деревьев может уменьшить дисперсию оценки чего-то вроде . Рассмотрим результаты из центральной предельной теоремы: увеличение размера выборки может уменьшить дисперсию статистики, как в среднем, но не устранить ее. Прогнозы случайных лесов - это среднее значение всех прогнозов деревьев, и сами эти прогнозы являются случайными переменными (из-за начальной загрузки и случайного подмножества объектов; оба происходят независимо, поэтому голоса также идентифицируются). CLT обеспечивает, что приближается к нормальному распределению , где - истинное среднее предсказание иˉ x ˉ x ˉ x ∼ N ( μ , σ 2р ( у= 1 | х ) Икс¯ Икс¯ μσ2 ˉ x σ2=0Икс¯∼ N( μ , σ2N) μ σ2 дисперсия голосов деревьев. (Голоса принимают значения либо 0, либо 1, поэтому среднее количество голосов имеет конечную дисперсию.) Дело в том, что удвоение количества деревьев приведет к уменьшению дисперсии пополам, но не приведет к нуль. Икс¯ (За исключением случаев, когда , но мы знаем, что это не так.)σ2= 0
Неприводимая дисперсия не может быть исправлена с помощью начальной загрузки. Более того, случайные леса уже загружены; это одна из причин того, что в названии есть «случайный». (Другая причина в том, что случайное подмножество объектов выбирается при каждом разделении.)
источник