Я столкнулся с термином близость в случайных лесах. Но я не мог понять, что он делает в случайных лесах. Как это помогает в целях классификации?
источник
Я столкнулся с термином близость в случайных лесах. Но я не мог понять, что он делает в случайных лесах. Как это помогает в целях классификации?
Термин «близость» означает «близость» или «близость» между парами наблюдений.
Близость рассчитывается для каждой пары наблюдений / наблюдений / точек выборки. Если два случая занимают один и тот же терминальный узел через одно дерево, их близость увеличивается на один. В конце прогона всех деревьев близость нормализуется путем деления на количество деревьев. Близость используется для замены отсутствующих данных, определения местоположения выбросов и создания освещающих низкоразмерных представлений данных.
близостями
Первоначально близость сформировала матрицу NxN. После того, как дерево выросло, поместите все данные, как тренировочные, так и рабочие, в дерево. Если случаи k и n находятся в одном и том же терминальном узле, увеличьте их близость на единицу. В конце нормализуйте близость, разделив число деревьев.
Пользователи отметили, что с большими наборами данных они не могут вписать матрицу NxN в быструю память. Модификация уменьшила необходимый объем памяти до NxT, где T - количество деревьев в лесу. Чтобы ускорить масштабирующее масштабирование и итеративную замену отсутствующих значений, пользователю предоставляется возможность сохранить только nrnn наибольшую близость к каждому случаю.
Когда присутствует набор тестов, также можно вычислить близость каждого случая в наборе тестов с каждым случаем в обучающем наборе. Количество дополнительных вычислений умеренное.
цитата: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
Обратите внимание, что авторы «Элементов статистического обучения» утверждают, что «графики близости для случайных лесов часто выглядят очень похожими, независимо от данных, которые ставят под сомнение их полезность. Они имеют тенденцию иметь форму звезды, по одной руке на класс, что больше произносится лучше классификации производительности ". (с 595)
Тем не менее, я думаю, что эти авторы не упоминают о том, как случайные леса так часто сталкиваются с отсутствующими данными (даже если они упоминают отсутствующие данные с деревьями ранее в книге); возможно, авторы просто не особо выделяли этот аспект RF, что имеет смысл, учитывая, что книга огромна и содержит много информации по многим темам / методам машинного обучения. Однако я не думаю, что наличие графиков, дающих одинаковые формы для любого ВЧ, и набор данных означает что-либо отрицательное в отношении ВЧ в целом. Например, линейная регрессия в основном всегда выглядит одинаково, но стоит знать, какие точки лежат рядом с линией, а какие кажутся выбросами с точки зрения линейной регрессии. Так что ... их комментарий о полезности участков близости не имеет смысла для меня.
источник