Существует ли реализация случайного леса R, которая хорошо работает с очень разреженными данными? У меня есть тысячи или миллионы логических входных переменных, но только сотни или около того будут ИСТИНА для любого данного примера.
Я относительно новичок в R и заметил, что существует пакет Matrix для работы с разреженными данными, но стандартный пакет randomForest, похоже, не распознает этот тип данных. Если это имеет значение, входные данные будут созданы за пределами R и импортированы.
Любой совет? Я также могу изучить использование Weka, Mahout или других пакетов.
r
random-forest
sparse
Eryn
источник
источник
Ответы:
Нет, для разреженных данных в R. нет реализации RF. Частично, потому что RF не очень хорошо подходит для этого типа проблем - пакетирование и субоптимальный выбор разбиений могут привести к потере большей части понимания модели в областях, где нет нуля.
Попробуйте какой-нибудь метод ядра или лучше подумайте о преобразовании ваших данных в более пышное представление с некоторыми дескрипторами (или используйте некоторый метод уменьшения размерности).
источник
На самом деле, да, есть .
Это
xgboost
сделано для повышения градиента eXtreme. В настоящее время этот пакет предпочтителен для запуска моделей с разреженными матрицами в R для многих людей, и, как объясняет ссылка выше, вы можете использовать его для Random Forest, настроив параметры !источник
Пакет R "Рейнджер" должен сделать.
https://cran.r-project.org/web/packages/ranger/ranger.pdf
По сравнению с randomForest этот пакет, вероятно, является самой быстрой реализацией RF, которую я видел. Он обрабатывает категориальные переменные по-своему.
источник
Существует блог под названием Quick-R, который должен помочь вам с основами R.
R работает с пакетами. Каждый пакет может сделать что-то свое. Есть такие пакеты, называемые randomForests, которые должны быть именно тем, о чем вы просите.
Имейте в виду, что редкие данные будут вызывать проблемы независимо от того, какой метод вы применяете. Насколько мне известно, это очень открытая проблема, и интеллектуальный анализ данных в целом является скорее искусством, чем наукой. Случайные леса в целом очень хороши, но они не всегда являются лучшим методом. Вы можете попробовать нейронную сеть с большим количеством слоев, которые могут помочь.
источник