Пределы основанных на деревьях методов ансамбля в маленьких n, больших p проблемах?

10

Основанные на деревьях методы ансамбля, такие как Случайный лес и последующие производные (например, условный лес), предназначены для использования в так называемых задачах «маленький n , большой p » для определения относительной важности переменной. Действительно, похоже, что это так, но мой вопрос в том, как далеко может быть взята эта способность? Можно ли, скажем, 30 наблюдений и 100 переменных? Что является переломным моментом для такого подхода, и существуют ли какие-либо приличные практические правила, которые существуют? Я предпочел бы и приму ответы, подкрепленные ссылками на фактические доказательства (не предположения), используя либо смоделированные, либо реальные наборы данных. Я не нашел много на последнем ( здесь и здесь), так что ваши мысли / советы / (по теме) рекомендательные предложения приветствуются!

Prophet60091
источник

Ответы:

3

Я подозреваю, что однозначного ответа на этот вопрос не будет, пока не будут проведены некоторые имитационные исследования. Тем временем я нашел Genuer et al. « Случайные леса»: некоторые методологические выводы помогли взглянуть на этот вопрос с некоторой точки зрения, по крайней мере, с точки зрения тестирования RF на различных наборах данных с «низким n, высоким p». Некоторые из этих наборов данных имеют> 5000 предикторов и <100 наблюдений !!

Prophet60091
источник
3

Режим сбоя, с которым вы столкнетесь, состоит в том, что при достаточном количестве случайных объектов будут существовать функции, которые относятся к цели в пакетных выборках, используемых для каждого дерева, но не в пределах большего набора данных. Проблема, похожая на ту, что наблюдается при многократном тестировании.

Эмпирические правила для этого трудно разработать, так как точная точка, в которой это происходит, зависит от количества шума и силы сигнала в данных. Существуют также методы, которые решают эту проблему путем использования нескольких p-значений, исправленных тестами, в качестве критериев разделения, выполнения шага выбора признаков, основанного на переменной важности, и / или сравнения значений характеристик с искусственными объектами контраста, полученными путем случайной перестановки фактического объекта, использования чемоданов для проверки правильности выбора и другие методы. Это может быть чрезвычайно эффективным.

Я использовал случайные леса (включая некоторые из описанных выше методологических настроек) для наборов данных с ~ 1000 случаев и 30 000-1 000 000 объектов. (Наборы данных в генетике человека с различным уровнем выбора функций или техники). Они, безусловно, могут быть эффективными в восстановлении сильного сигнала (или пакетного эффекта) в таких данных, но не очень хорошо складывают воедино что-то вроде заболевания с гетерогенными причинами, так как случайное изменение количества преодолевает каждый сигнал

Райан Бресслер
источник
0

Это также будет зависеть от сигнала и шума в ваших данных. Если ваша зависимая переменная довольно хорошо объясняется комбинацией переменных в вашей модели, то, я думаю, вы можете избежать меньшего отношения n / p.

Я подозреваю, что абсолютное минимальное число n также потребуется, чтобы получить достойную модель, кроме отношения.

Один из способов взглянуть на это состоит в том, что каждое дерево строится с использованием переменных SQRT (p), и, если это число велико, а количество точек маленькое, деревья можно подогнать без реальной модели. Следовательно, много таких переоснащенных деревьев придаст ложное значение переменной.

Обычно, если на графике переменной важности я вижу много главных переменных с почти одинаковым уровнем важности, я делаю вывод, что это дает мне только шум.

DeepakML
источник
Откуда происходит SQRT (p)?
LauriK
В RandomForest каждое дерево строится с использованием выборки переменных. По умолчанию (по крайней мере в пакете R randomForest) значение, которое он принимает, является ближайшим числом, меньшим или равным SQRT (p), где p - количество столбцов.
DeepakML