Вопросы с тегом «random-forest»

Случайный лес - это классификатор машинного обучения, основанный на выборе случайных подмножеств переменных для каждого дерева и использовании наиболее частых выходных данных дерева в качестве общей классификации.

64
строки как объекты в дереве решений / случайном лесу

Я делаю некоторые проблемы с применением дерева решений / случайного леса. Я пытаюсь приспособить проблему, в которой в качестве функций есть цифры, а также строки (например, название страны). Теперь библиотека scikit-learn принимает только числа в качестве параметров, но я хочу ввести строки, так...

42
ValueError: Входные данные содержат NaN, бесконечность или значение, слишком большое для dtype ('float32')

Я получил ValueError при прогнозировании тестовых данных с использованием модели RandomForest. Мой код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Ошибка:...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

28
Понимание Forex_Proba из MultiOutputClassifier

Я следую этому примеру на веб-сайте scikit-learn, чтобы выполнить многопользовательскую классификацию с использованием модели Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier...

28
Когда использовать Random Forest поверх SVM и наоборот?

Когда можно использовать Random Forestснова SVMи наоборот? Я понимаю, что cross-validationсравнение моделей является важным аспектом выбора модели, но здесь я хотел бы узнать больше о практических правилах и эвристике этих двух методов. Может кто-нибудь объяснить, какие тонкости, сильные и слабые...

25
Зачем нам XGBoost и Random Forest?

Я не был ясен в паре концепций: XGBoost превращает слабых учеников в сильных учеников. В чем преимущество этого? Объединить много слабых учеников вместо одного дерева? Random Forest использует различные образцы из дерева для создания дерева. В чем преимущество этого метода вместо использования...

24
Есть ли случайный лес наряд?

Я читал вокруг о случайных лесах, но я не могу найти окончательного ответа о проблеме переоснащения. Согласно оригинальной статье Бреймана, они не должны переодеваться при увеличении количества деревьев в лесу, но, похоже, по этому поводу нет единого мнения. Это создает мне некоторую путаницу по...

23
Требуется ли перекрестная проверка для моделирования со случайными лесами?

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном и том же наборе данных). С другой стороны, исходный источник утверждает, что факт ошибки OOB, вычисляемый...

17
Выберите алгоритм двоичной классификации

У меня есть проблема двоичной классификации: Примерно 1000 образцов в тренировочном наборе 10 атрибутов, включая двоичные, числовые и категориальные Какой алгоритм является лучшим выбором для этого типа проблемы? По умолчанию я собираюсь начать с SVM (предварительно имея номинальные значения...

16
Как повысить точность классификаторов?

Я использую пример OpenCV letter_recog.cpp для экспериментов со случайными деревьями и другими классификаторами. Этот пример имеет реализации шести классификаторов - случайных деревьев, бустинга, MLP, kNN, наивных байесовских и SVM. Используется набор данных для распознавания букв UCI с 20000...

16
Метод оценки OOB RandomForestClassifier

Использует ли реализация случайного леса в scikit-learn среднюю точность в качестве метода оценки для оценки ошибки обобщения с выборками из пакета? Это не упоминается в документации, но метод Score () сообщает о средней точности. У меня очень несбалансированный набор данных, и я использую AUC ROC...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

14
Нужна ли стратифицированная выборка (случайный лес, Python)?

Я использую Python для запуска модели случайного леса на моем несбалансированном наборе данных (целевой переменной был двоичный класс). Разделяя набор данных обучения и тестирования, я боролся, использовать ли стратифицированную выборку (как показано в коде) или нет. До сих пор я наблюдал в своем...

13
Сколько функций для выборки с использованием случайных лесов

На странице Википедии, которая цитирует «Элементы статистического обучения», написано: Как правило, для задачи классификации с функциями, ⌊ √ппp функции используются в каждом разделении.⌊ р-√⌋⌊п⌋\lfloor \sqrt{p}\rfloor Я понимаю, что это довольно обоснованное предположение, и оно, вероятно,...

13
Он-лайн случайные леса, добавив больше деревьев решений

Случайный лес (RF) создается ансамблем деревьев решений (DT). Благодаря использованию пакетов каждый DT обучается в отдельном подмножестве данных. Следовательно, есть ли способ реализовать случайный лес в режиме онлайн, добавив больше решений для новых данных? Например, у нас есть 10K образцов и...

13
Важность функции с помощью scikit-learn Random Forest показывает очень высокое стандартное отклонение

Я использую scikit-learn Random Forest Classifier и хочу показать важность функции, как в этом примере . Однако мой результат совершенно другой, в том смысле, что стандартное отклонение важности объекта почти всегда больше, чем значение самого свойства (см. Прилагаемое изображение). Возможно ли...

12
Выбор объектов с использованием значений функций в случайных лесах с помощью scikit-learn

Я нанесены художественные важности в случайных лесах с scikit учиться . Как улучшить прогнозирование с использованием случайных лесов, как я могу использовать информацию о графике для удаления объектов? Т.е. как определить, является ли объект бесполезным или, что еще хуже, снижение...

12
Важность признаков с категоричными признаками высокой кардинальности для регрессии (числовая переменная отклонения)

Я пытался использовать значения функций из случайных лесов, чтобы выполнить эмпирический выбор объектов для задачи регрессии, в которой все объекты являются категориальными и многие из них имеют много уровней (порядка 100-1000). Учитывая, что горячее кодирование создает фиктивную переменную для...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...