Вопросы с тегом «random-forest»

15

Ошибка «из сумки» делает резюме ненужным в случайных лесах?

Я довольно новичок в случайных лесах. В прошлом я всегда сравнивал точность подгонки к тесту с подгонкой к тренировке, чтобы обнаружить любое переоснащение. Но я только что прочитал здесь, что: «В случайных лесах нет необходимости в перекрестной проверке или отдельном наборе тестов, чтобы получить...

cross-validation random-forest overfitting

15

Какую меру ошибки обучения сообщать для случайных лесов?

В настоящее время я подгоняю случайные леса для задачи классификации, используя randomForestпакет в R, и не уверен, как сообщить об ошибке обучения для этих моделей. Моя ошибка обучения близка к 0%, когда я вычисляю ее, используя прогнозы, которые я получаю с помощью команды: predict(model,...

r machine-learning classification random-forest overfitting

15

Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

15

Почему функция начальной загрузки scikit-learn пересчитывает набор тестов?

При использовании начальной загрузки для оценки модели я всегда думал, что образцы из пакета были непосредственно использованы в качестве тестового набора. Однако, похоже, что это не относится к устаревшему подходу scikit-learnBootstrap , который, похоже, строит тестовый набор из чертежа с заменой...

cross-validation bootstrap random-forest scikit-learn bagging

15

Случайный лес переоснащается

Я пытаюсь использовать случайную лесную регрессию в scikits-learn. Проблема в том, что я получаю очень высокую ошибку теста: train MSE, 4.64, test MSE: 252.25. Вот как выглядят мои данные: (синий: реальные данные, зеленый: прогноз): Я использую 90% для обучения и 10% для тестирования. Это код,...

regression random-forest scikit-learn

15

Как следует реализовывать разбиения дерева решений при прогнозировании непрерывных переменных?

На самом деле я пишу реализацию Случайных Лесов, но я считаю, что вопрос специфичен для деревьев решений (независимо от RF). Таким образом, контекст заключается в том, что я создаю узел в дереве решений, и предсказание и целевые переменные являются непрерывными. Узел имеет пороговое значение для...

algorithms cart random-forest

14

RandomForest - интерпретация сюжета MDS

Я использовал randomForest для классификации 6 поведений животных (например, стоя, ходьбы, плавания и т. Д.) На основе 8 переменных (различные позы тела и движения). MDSplot в пакете randomForest дает мне этот вывод, и у меня возникают проблемы с интерпретацией результата. Я сделал PCA на тех же...

r classification random-forest multidimensional-scaling

14

Какими должны быть оптимальные параметры для классификатора Random Forest?

В настоящее время я использую набор инструментов RF на MATLAB для двоичной классификации. Набор данных: 50000 образцов и более 250 функций Так, каково должно быть количество деревьев и случайным образом выбранная особенность на каждом разделении, чтобы вырастить деревья? Может ли какой-либо другой...

machine-learning classification random-forest

14

Какие алгоритмы упаковки являются достойными преемниками Random Forest?

Я бы сказал, что для повышения алгоритмов они развивались довольно хорошо. В начале 1995 года был представлен AdaBoost, затем через некоторое время это была Gradient Boosting Machine (GBM). Недавно, около 2015 года, был представлен XGBoost, который точен, справляется с переоснащением и стал...

random-forest boosting bagging

14

Использование LASSO в случайном лесу

Я хотел бы создать случайный лес, используя следующий процесс: Построить дерево на случайных выборках данных и объектов, используя прирост информации для определения разбиений Завершить листовой узел, если он превышает предопределенную глубину, ИЛИ любое разделение приведет к тому, что число...

classification random-forest lasso ensemble

14

R: Что я вижу на графиках частичной зависимости gbm и RandomForest?

На самом деле, я думал, что понял, что можно показать на графике частичной зависимости, но на очень простом гипотетическом примере я немного озадачился. В следующем фрагменте кода я генерирую три независимые переменные ( a , b , c ) и одну зависимую переменную ( y ), где c показывает тесную...

r random-forest boosting partial-plot

14

Случайный лес и алгоритм дерева решений

Случайный лес - это набор деревьев решений, следующих концепции бэгинга. Когда мы переходим от одного дерева решений к следующему дереву решений, то как информация, полученная с помощью последнего дерева решений, переходит к следующему? Потому что, насколько я понимаю, нет ничего лучше обученной...

machine-learning random-forest cart bagging

14

Почему оценка ошибки случайного леса OOB улучшается при уменьшении количества выбранных объектов?

Я применяю алгоритм случайного леса в качестве классификатора для набора данных микрочипов, который разделен на две известные группы с тысячами объектов. После первого запуска я смотрю на важность функций и снова запускаю алгоритм дерева с 5, 10 и 20 наиболее важными функциями. Я обнаружил, что для...

r machine-learning classification random-forest

14

Как моделировать большие продольные данные?

Традиционно мы используем смешанную модель для моделирования продольных данных, то есть таких данных, как: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 мы можем предположить случайный перехват или наклон для разных людей. Однако вопрос, который я...

machine-learning data-transformation random-forest panel-data large-data

14

Различные результаты от randomForest через каретку и базового пакета randomForest

Я немного растерялся: чем могут отличаться результаты обученной модели с помощью каретки от модели в оригинальной упаковке? Я прочитал , нужна ли предварительная обработка перед прогнозированием с использованием FinalModel из RandomForest с пакетом Caret? но я не использую никакой предварительной...

r machine-learning random-forest caret train

14

Взвешивание более свежих данных в модели Random Forest

Я обучаю классификационную модель случайному лесу, чтобы различать 6 категорий. Мои транзакционные данные имеют около 60 тыс. Наблюдений и 35 переменных. Вот пример того, как это выглядит примерно. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay |...

r machine-learning classification random-forest

13

Случайный лес и прогноз

Я пытаюсь понять, как работает Random Forest. У меня есть представление о том, как строятся деревья, но я не могу понять, как Random Forest делает прогнозы на выборке из сумки. Может ли кто-нибудь дать мне простое объяснение, пожалуйста?...

random-forest prediction

13

Существует ли формула или правило для определения правильного размера выборки для randomForest?

Я играю с randomForest и обнаружил, что обычно увеличение SampSize приводит к повышению производительности. Существует ли правило / формула / и т. Д., В котором предлагается оптимальный размер sampSize или это метод проб и ошибок? Я предполагаю другой способ сформулировать это; каковы мои риски...

r random-forest

13

Когда регистрировать / расширять ваши переменные при использовании моделей с произвольным лесом?

Я делаю регрессию, используя случайные леса для прогнозирования цен на основе нескольких атрибутов. Код написан на Python с использованием Scikit-learn. Как вы решаете, должны ли вы преобразовывать свои переменные, используя exp/ logперед тем, как использовать их для соответствия регрессионной...

regression machine-learning predictive-models python random-forest

13

Случайный лес: как обрабатывать новые уровни факторов в тестовом наборе?

Я пытаюсь делать прогнозы, используя модель случайного леса в R. Однако я получаю ошибки, так как некоторые факторы имеют разные значения в тестовом наборе, чем в обучающем наборе. Например, фактор Cat_2имеет значения 34, 68, 76и т. Д. В тестовом наборе, которые не отображаются в обучающем наборе....

r categorical-data random-forest