Мой вопрос: почему случайный лес учитывает случайные подмножества объектов для разбиения на уровне узла в каждом дереве, а не на уровне дерева ?
Справочная информация: это вопрос истории. Тин Кам Хо опубликовал эту статью о построении «лесов принятия решений» путем случайного выбора подмножества объектов, которые будут использоваться для выращивания каждого дерева в 1998 году. Несколько лет спустя, в 2001 году, Лео Брейман опубликовал свою оригинальную статью « Случайный лес» , в которой подмножество объектов является случайным образом. выбран в каждом узле в каждом дереве, а не в каждом дереве. В то время как Брейман цитировал Хо, он конкретно не объяснил переход от случайного выбора объектов на уровне дерева к уровню узла.
Мне интересно, что конкретно мотивировало это развитие. Похоже, что выбор подмножества объектов на уровне дерева все же обеспечит желаемую декорреляцию деревьев.
Моя теория: я не видел, чтобы это было сформулировано в другом месте, но кажется, что метод случайных подпространств был бы менее эффективным с точки зрения получения оценок важности функций. Чтобы получить оценки переменной важности, для каждого дерева характеристики случайным образом переставляются одна за другой, и регистрируется увеличение ошибочной классификации или увеличение погрешности для наблюдений вне пакета. Переменные, для которых высока ошибочная классификация или увеличение ошибки в результате этой случайной перестановки, имеют наибольшее значение.
То, на что я смотрел до сих пор: до сих пор я прочитал статью Бреймана и статью Хо и провел широкий онлайн-поиск сравнений методов, не найдя однозначного ответа. Обратите внимание, что аналогичный вопрос был задан ранее. Этот вопрос идет немного дальше, включая мои предположения / работу по поиску возможного решения. Я был бы заинтересован в любых ответах, соответствующих цитатах или имитационных исследованиях, сравнивающих два подхода. Если ничего не выйдет, я планирую провести собственную симуляцию, сравнивая два метода.
Ответы:
Предположим, у нас есть 10 объектов f1, f2, ..., f9, f10, затем, когда мы возьмем подмножество, предположим, что f1, f3, f4, f8 функций на самом уровне дерева, мы строим целое дерево, взяв эти 4 функции во внимание.
Мы вычисляем энтропию, сравниваем только эти 4 функции в каждом узле и выбираем функцию, которая дает максимальную энтропию. Это не очень полезно, поскольку мы ограничиваем наше древовидное обучение только этими 4 функциями. В противоположность этому, когда мы берем некоторое подмножество функций, скажем, f1, f8, f9 в первом узле, мы вычисляем энтропию и сравниваем их среди этих трех функций и выбираем ту, которая дает максимальное значение. Вместо дальнейшего наращивания дерева с теми же функциями, мы выбрали другое подмножество функций, скажем, f4, f7, f2 и сделаем разделение на основе этих функций. Предположим, что f8 был выбран в первом узле, а f2 был выбран во втором узле. Модель способна выучить отношения между этими двумя
Таким образом, модель может узнать взаимосвязь между различными функциями более разнообразным способом. Этот подход будет иметь ряд особенностей, исследованных в одном дереве, и, таким образом, отношения между ними сохранятся. Надеюсь, ты понял это сейчас :)
источник