Вопросы с тегом «random-forest»

12
Первые шаги в обучении для прогнозирования финансовых временных рядов с использованием машинного обучения

Я пытаюсь понять, как использовать машинное обучение для прогнозирования финансовых временных рядов на 1 или более шагов в будущее. У меня есть финансовые временные ряды с некоторыми описательными данными, и я хотел бы сформировать модель и затем использовать модель для прогнозирования n шагов...

12
Требуется ли предварительная обработка перед прогнозированием с использованием FinalModel из RandomForest с пакетом Caret?

Я использую пакет caret для обучения объекта randomForest с 10x10CV. library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) После этого я тестирую...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

12
Случайная лесная регрессия не предсказывает выше, чем данные обучения

Я заметил, что при построении моделей регрессии случайных лесов, по крайней мере, в R, прогнозируемое значение никогда не превышает максимальное значение целевой переменной, видимое в данных обучения. В качестве примера см. Код ниже. Я строю регрессионную модель для прогнозирования mpgна основе...

12
Как уменьшить количество ложных срабатываний?

Я пытаюсь решить задачу, которая называется « Обнаружение пешеходов», и я тренирую двоичный класс по двум категориям: позитивные - люди, негативные - фон. У меня есть набор данных: количество позитивов = 3752 число отрицательных = 3800 Я использую train \ test split 80 \ 20% и форму scikit-learn...

11
Почему большой выбор K понижает мою оценку перекрестной проверки?

Играя с набором данных Boston Housing Dat и RandomForestRegressor(с параметрами по умолчанию) в scikit-learn, я заметил кое-что странное: средний балл перекрестной проверки уменьшился, когда я увеличил число сгибов выше 10. Моя стратегия перекрестной проверки была следующей: cv_met =...

11
Есть ли способ объяснить прогноз из модели случайного леса?

Скажем, у меня есть модель прогнозирующей классификации, основанная на случайном лесу (используя пакет randomForest в R). Я хотел бы настроить его так, чтобы конечные пользователи могли указать элемент, для которого создается прогноз, и он выведет вероятность классификации. Пока проблем нет. Но...

11
Сокращение количества уровней неупорядоченной категориальной предикторной переменной

Я хочу обучить классификатор, скажем SVM, или случайный лес, или любой другой классификатор. Одной из функций в наборе данных является категориальная переменная с 1000 уровнями. Каков наилучший способ уменьшить количество уровней в этой переменной. В R есть функция, называемая combine.levels()в...

11
MCMC выборка пространства дерева решений в сравнении со случайным лесом

Случайный лес представляет собой совокупность деревьев решений , сформированных случайным образом выбирая только определенные функции для построения каждого дерева с (а иногда и расфасовке тренировочную данные). По-видимому, они хорошо учатся и обобщают. Кто-нибудь делал выборку MCMC пространства...

11
Случайный лес на сгруппированных данных

Я использую случайный лес на многомерных сгруппированных данных (50 числовых входных переменных), которые имеют иерархическую структуру. Данные были собраны с 6 повторениями в 30 положениях 70 различных объектов, что привело к 12600 точкам данных, которые не являются независимыми. Кажется, что...

11
RandomForest и веса классов

Вопрос в одном предложении: знает ли кто-нибудь, как определить вес хорошего класса для случайного леса? Пояснение: я играю с несбалансированными наборами данных. Я хочу использовать этот Rпакет randomForest, чтобы обучить модель очень искаженному набору данных, используя только небольшие...

11
Выборка с заменой в R randomForest

Реализация randomForest не позволяет производить выборку сверх количества наблюдений, даже при выборке с заменой. Почему это? Работает отлично: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Что я хочу...

11
Почему CNN заканчиваются слоями FC?

Насколько я понимаю, CNN состоят из двух частей. Первая часть (слои conv / pool), которая выполняет извлечение объектов, и вторая часть (слои fc), которая выполняет классификацию по объектам. Поскольку полностью связанные нейронные сети не являются лучшими классификаторами (т.е. они в большинстве...

11
Должен ли я выбрать регрессор или классификатор Random Forest?

Я подгоняю набор данных с бинарным целевым классом по случайному лесу. В Python я могу сделать это либо randomforestclassifier, либо randomforestregressor. Я могу получить классификацию напрямую из randomforestclassifier или я могу сначала запустить randomforestregressor и вернуть набор оценочных...

11
Мотивация за шагами алгоритма случайного леса

Метод создания случайного леса, с которым я знаком, заключается в следующем: (из http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Чтобы построить дерево в лесу, мы: Загрузите образец размера N, где N - размер нашего тренировочного набора. Используйте этот загруженный образец в...

11
Как рассчитать доверительные оценки в регрессии (со случайными лесами / XGBoost) для каждого прогноза в R?

Есть ли способ получить показатель достоверности (мы можем также назвать его значением достоверности или вероятности) для каждого прогнозируемого значения при использовании таких алгоритмов, как Random Forests или Extreme Gradient Boosting (XGBoost)? Допустим, этот показатель доверия будет...

11
Почему дерево в мешках / случайное лесное дерево имеет более высокий уклон, чем одно дерево решений?

Если мы рассмотрим полноценное дерево решений (т.е. дерево необрезанных решений), оно имеет высокую дисперсию и низкое смещение. Мешки и случайные леса используют эти модели высокой дисперсии и агрегируют их, чтобы уменьшить дисперсию и, таким образом, повысить точность прогнозирования. И Мешки, и...

11
Деревья решений и регрессия - Могут ли прогнозируемые значения выходить за пределы диапазона данных обучения?

Когда речь идет о деревьях решений, может ли прогнозируемое значение лежать вне диапазона обучающих данных? Например, если диапазон набора обучающих данных целевой переменной составляет 0-100, когда я генерирую свою модель и применяю ее к чему-то другому, могут ли мои значения быть -5? или 150?...

10
Сравните R-квадрат из двух разных моделей Random Forest

Я использую пакет randomForest в R для разработки модели случайного леса, чтобы попытаться объяснить непрерывный результат в «широком» наборе данных с большим количеством предикторов, чем выборок. В частности, я подгоняю одну модель RF, позволяющую процедуре выбрать из набора ~ 75 переменных...