Вопросы с тегом «random-forest»

10

Есть ли способ использовать перекрестную проверку для выбора переменных / признаков в R?

У меня есть набор данных с около 70 переменных, которые я хотел бы сократить. Я хочу использовать CV, чтобы найти наиболее полезные переменные следующим образом. 1) Случайно выберите, скажем, 20 переменных. 2) Используйте stepwise/ LASSO/ lars/ etc для выбора наиболее важных переменных. 3)...

10

R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

10

randomForest и ошибка важности переменной?

Я не получаю разницу между rfobject$importanceи importance(rfobject)в столбце MeanDecreaseAccuracy. Пример: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length...

r random-forest importance

10

Пределы основанных на деревьях методов ансамбля в маленьких n, больших p проблемах?

Основанные на деревьях методы ансамбля, такие как Случайный лес и последующие производные (например, условный лес), предназначены для использования в так называемых задачах «маленький n , большой p » для определения относительной важности переменной. Действительно, похоже, что это так, но мой...

random-forest small-sample ensemble

10

Значение переменной randomForest отрицательные значения

Я спрашиваю себя, стоит ли удалять те переменные с отрицательным значением важности переменной ("% IncMSE") в контексте регрессии. А если это даст мне лучший прогноз? Что вы...

machine-learning feature-selection random-forest importance

10

Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

10

Могут ли случайные леса справиться с MNIST намного лучше, чем ошибка тестирования 2,8%?

Я не нашел никакой литературы по применению случайных лесов к MNIST, CIFAR, STL-10 и т. Д., Поэтому я решил попробовать их с MNIST, не зависящим от перестановок . В R я попробовал: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Это работало в течение 2 часов и получило...

r machine-learning classification random-forest scikit-learn

10

Выбор каретки для модели randomForest

У меня проблемы с пониманием того, как varImpфункция работает для модели randomForest с caretпакетом. В приведенном ниже примере функция var3 получает нулевую важность с помощью varImpфункции caret , но базовая конечная модель randomForest имеет ненулевую важность для функции var3. Почему это так?...

r caret random-forest

10

Как изменить порог для классификации в R randomForests?

Вся литература по моделированию распределения видов предполагает, что при прогнозировании присутствия / отсутствия вида с использованием модели, которая выводит вероятности (например, RandomForests), важен выбор пороговой вероятности, с помощью которой можно фактически классифицировать вид как...

r classification random-forest threshold

10

Случайный лес не может переодеться?

Я читал литературу, которую случайные леса не могут перегонять. Хотя это звучит замечательно, кажется слишком хорошим, чтобы быть правдой. Можно ли для ВЧ...

random-forest overfitting

10

Случайный лесной вероятностный прогноз против большинства голосов

Кажется, Scikit Learn использует вероятностный прогноз вместо большинства голосов за метод агрегации моделей без объяснения причин (1.9.2.1. Случайные леса). Есть четкое объяснение почему? Кроме того, есть ли хорошая статья или обзорная статья о различных методах агрегации моделей, которые можно...

random-forest python scikit-learn aggregation bagging

10

Случайный лес против Adaboost

В разделе 7 статьи « Случайные леса» (Брейман, 1999) автор высказывает следующую гипотезу: «Adaboost - это случайный лес». Кто-нибудь доказал или опроверг это? Что было сделано, чтобы доказать или опровергнуть этот пост 1999...

machine-learning random-forest boosting

10

Требуется ли перекрестная проверка для моделирования со случайными лесами?

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во...

cross-validation random-forest overfitting out-of-sample

10

Справедливо ли задавать начальное число в случайной лесной регрессии для получения максимальной точности?

У меня есть случайная регрессия леса, построенная с использованием skl, и я отмечаю, что я получаю разные результаты, основываясь на установке случайного начального числа на разные значения. Если я использую LOOCV, чтобы определить, какое семя работает лучше всего, это правильный метод?...

cross-validation random-forest

10

Примеры использования RBF SVM (против логистической регрессии и случайного леса)

Машины опорных векторов с ядром радиально-базовой функции - это универсальный контролируемый классификатор. Хотя я знаю теоретические основы этих SVM и их сильные стороны, я не знаю случаев, когда они являются предпочтительным методом. Итак, существует ли класс проблем, для которых SVM RBF...

machine-learning logistic classification svm random-forest

10

Случайная лесная регрессия для прогнозирования временных рядов

Я пытаюсь использовать радиочастотную регрессию для прогнозирования производительности бумажной фабрики. У меня есть поминутные данные для входных данных (скорость и количество поступающей древесной массы и т. Д.), А также для производительности машины (произведенная бумага, мощность, потребляемая...

time-series forecasting cross-validation random-forest autoregressive

10

Почему результаты моего случайного леса такие переменные?

Я пытаюсь проверить способность случайного леса классифицировать выборки между 2 группами; Для классификации используются 54 образца и различное количество переменных. Мне было интересно, почему оценки «вне сумки» могут отличаться на 5% друг от друга, даже если я использую 50 000 деревьев? Может ли...

machine-learning random-forest

9

Каковы практические и интерпретационные различия между альтернативами и логистической регрессией?

Недавний вопрос об альтернативах логистической регрессии в R дал множество ответов, включая randomForest, gbm, rpart, bayesglm и обобщенные аддитивные модели. Каковы практические и интерпретационные различия между этими методами и логистической регрессией? Какие предположения они делают (или не...

r hypothesis-testing logistic random-forest

9

Смещение, зависящее от распределения ответов при случайной регрессии леса

Я использую пакет randomForest в R (R версия 2.13.1, randomForest версия 4.6-2) для регрессии и заметил значительный сдвиг в моих результатах: ошибка прогнозирования зависит от значения переменной отклика. Высокие значения недооценены, а низкие значения переоценены. Сначала я подозревал, что это...

r regression random-forest

9

порог классификации в RandomForest-sklearn

1) Как я могу изменить порог классификации (я думаю, он равен 0,5 по умолчанию) в RandomForest в sklearn? 2) как я могу пробовать в sklearn? 3) У меня есть следующий результат из классификатора RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932...

classification random-forest precision-recall unbalanced-classes