Как я могу включить случайные эффекты (или повторные измерения) в randomForest

22

Я даже не уверен, что этот вопрос имеет большой смысл, но я думаю, что видел пару названий статей, в которых предлагался случайный лес со случайными эффектами. Это возможно в R?

mguzmann
источник
1
Да, это не имеет особого смысла. Что вы подразумеваете под случайными эффектами?
Симона
Я думаю о чем-то похожем на то, что вы можете сделать с помощью функции lmer, где вы можете включить случайный эффект как (1 | эффект).
mguzmann
Так это же имитация отжига в случайном лесу? econpapers.repec.org/article/bpjjqsprt/… researchgate.net/publication/…
EngrStudent - Восстановить Монику
2
Я не совсем уверен, что за случайность - это методы, которые вы просматриваете по адресам. Случайные леса - это простое улучшение по сравнению с укладкой в ​​мешки путем декорирования дерева. Причиной, по которой это называется «случайным», является тот факт, что в любом случае, когда в дереве рассматривается разбиение, кандидат на разбиение выбирается из случайного подмножества m, скажем, p предикторов. Обычно m ~ sqrt (p). И каждый раз, когда происходит разделение, выбирается случайное подмножество предикторов, следовательно, случайный лес.
psteelk

Ответы:

13

Они обычно не используются вместе, и следует соблюдать осторожность, прежде чем объединять их.

Случайные леса обычно используются в качестве классификаторов. Причина, по которой вы будете использовать случайный лес вместо другого метода (например, кластеризация K-средних), заключается в том, что у вас может быть большое количество измерений, по которым вы хотите классифицировать. Проблема с большим количеством измерений состоит в том, что если вы хотите протестировать все комбинации порядков измерений, у вас будет большое количество вариантов выбора (он растет быстрее, чем факториальное число измерений).

Случайные эффекты обычно используются в регрессии с повторными измерениями одного и того же. Они обычно используются в моделях смешанных эффектов, где термин смешанный относится как к фиксированным, так и к случайным эффектам. Считается, что фиксированные эффекты представляют параметры, которые вы увидите снова (например, лекарство или возраст человека). Считается, что случайные эффекты представляют собой случай изменчивости вокруг параметра, который вы больше не увидите (например, конкретного человека).

Есть примеры их совместного использования, когда есть кластеризованные данные http://dx.doi.org/10.1080/00949655.2012.741599 и http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf. ,

Я не знаю каких-либо пакетов R, которые могут сделать этот анализ.

Билл Денни
источник
2
Кроме того, авторы этой работы с удовольствием поделятся с вами кодом R своей реализации. Просто напишите им. Это то, что я сделал.
Дрянное равновесие
Я связался с Ларокко, который связался с Хаджамом, который написал мне по электронной почте в течение нескольких дней.
Brash Equilibrium
2
Справедливое предупреждение, однако, доступный код R реализует только случайный лес для непрерывных данных. Вам нужно будет расширить его, чтобы иметь дело с категориальными данными.
Brash Equilibrium
10

Да, это возможно. Вы должны проверить « Деревья RE-EM: подход интеллектуального анализа данных для продольных и кластерных данных » и связанный с ним пакет R REmtree .

Прошло много времени с тех пор, как я посмотрел на газету. Я помню, что авторы еще не пытались сформировать ансамбли этих деревьев, но ничто не предполагало, что это не сработает.

Бен Огорек
источник
1
REEMtree - это не случайные эффекты, применяемые к случайным лесам. Он применяется к рекурсивному разбиению, которое является лишь частью того, что входит в модель случайного леса. Поэтому я не думаю, что этот ответ заслуживает более высокой оценки, чем у Билла Денни. К сожалению, мой ответ на это заблокирован.
Дрянное равновесие
1
Давай, как только у тебя будет дерево, как трудно построить лес? И пожалуйста.
Бен Огорек
1
Ну, учитывая, как случайный лес добавляет к выборке при начальной загрузке, настраивает количество случайно выбранных объектов, которые нужно попробовать, агрегирует результаты дерева и т. Д., И нам нужно случайное влияние на предсказания случайного леса, а не предсказания отдельных деревьев в этом Forest, расширяющий REEMtree, не является таким хорошим решением, как чтение статьи, на которую ссылается Билл, и запрос кода R у его авторов.
Brash Equilibrium
8

Смешанные эффекты Случайные леса (MERFs) - вещь. Как говорится в ответе выше, группа доктора Ларока из HEC Montreal провела несколько исследований о них. Документ находится здесь: http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 .

По сути, это теоретически обоснованный способ сочетания нелинейного моделирования случайных лесов с линейными случайными эффектами.

Мы только что выпустили пакет с открытым исходным кодом в Python, реализующий MERF с использованием приведенного выше алгоритма в статье.

Мы написали подробный пост в блоге о пакете и о том, как использовать его для кластерных наборов данных.

Сурав Дей
источник
1
любые мысли о реализации этого в R или добавлении функциональности
графика