Я использую алгоритм случайного леса в качестве надежного классификатора двух групп в исследовании микроматрицы с тысячами функций.
- Каков наилучший способ представить случайный лес, чтобы в нем было достаточно информации, чтобы сделать его воспроизводимым на бумаге?
- Есть ли в R метод заговора для фактического построения дерева, если имеется небольшое количество объектов?
- Является ли оценка вероятности ошибок OOB лучшей статистикой для цитирования?
r
machine-learning
classification
random-forest
microarray
danielsbrewer
источник
источник
Ответы:
Что касается того, чтобы сделать его воспроизводимым, лучший способ - это предоставить воспроизводимые исследования (т.е. код и данные) вместе с документом. Сделайте его доступным на вашем веб-сайте или на хостинг-сайте (например, на github).
Что касается визуализации, Лео Брейман проделал некоторую интересную работу над этим (см. Его домашнюю страницу , в частности, раздел о графике ).
Но если вы используете R, то
randomForest
пакет имеет несколько полезных функций:А также
Я не знаю простого способа на самом деле построить дерево, но вы можете использовать
getTree
функцию, чтобы получить дерево и построить его отдельно.В презентации Strobl / Zeileis «Почему и как использовать меры важности случайных лесных переменных (и как не следует)» приводятся примеры деревьев, которые должны были быть получены таким образом. Этот пост в блоге о древовидных моделях содержит несколько хороших примеров диаграмм дерева CART, которые вы можете использовать, например.
Как прокомментировал @chl, одно дерево не имеет особого смысла в этом контексте, поэтому если не использовать его для объяснения того, что такое случайный лес, я бы не стал включать это в статью.
источник
plot.randomForest
показывает, как развивалась ошибка OOB и ошибка OOB в классе с увеличением количества деревьев;varImpPlot
показывает показатели важности атрибутов для верхних атрибутов иMDSplot
всех объектов, нанесенных на 2D-проекцию меры близости радиочастотного объекта.MDSplot()
функции. Я должен признать, что я часто использую RF как способ выделить группы людей (на основе меры близости RF), а не выбирать лучшие функции. Клиницисты часто читают такие графики гораздо легче, чем точечные. Важность ...источник
Имейте в виду, предостережения в других ответах о сюжете обязательно должны быть значимыми. Но если вам нужен сюжет для иллюстративных / педагогических целей, следующий фрагмент кода R может быть полезен. Не сложно добавить «точку разделения» к краю текста, если вам это нужно.
источник