Вопросы с тегом «cart»

14
Случайный лес и алгоритм дерева решений

Случайный лес - это набор деревьев решений, следующих концепции бэгинга. Когда мы переходим от одного дерева решений к следующему дереву решений, то как информация, полученная с помощью последнего дерева решений, переходит к следующему? Потому что, насколько я понимаю, нет ничего лучше обученной...

14
Можно ли сделать модели CART надежными?

Коллега в моем офисе сказал мне сегодня: «Модели деревьев не хороши, потому что их ловят экстремальные наблюдения». Поиск здесь привел к этой теме, которая в основном поддерживает претензию. Что приводит меня к вопросу - в какой ситуации модель CART может быть надежной и как это...

13
Случайный лес на многоуровневых / иерархически структурированных данных

Я довольно новичок в машинном обучении, методиках CART и тому подобном, и я надеюсь, что моя наивность не слишком очевидна. Как случайный лес обрабатывает многоуровневые / иерархические структуры данных (например, когда интерес представляет межуровневое взаимодействие)? То есть наборы данных с...

13
Улучшенные деревья решений в python? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос так, чтобы он был по теме перекрестной проверки. Закрыто 5 месяцев назад . Есть ли хорошая библиотека Python для обучения расширенных деревьев...

13
Лучшие практики для кодирования категориальных функций для деревьев решений?

При кодировании категориальных признаков для линейной регрессии существует правило: количество манекенов должно быть на единицу меньше общего количества уровней (чтобы избежать коллинеарности). Существует ли подобное правило для деревьев решений (в мешках, усиленных)? Я спрашиваю об этом, потому...

12
Алгоритмы машинного обучения для панельных данных

В этом вопросе. Существует ли метод построения деревьев решений, который учитывает структурированные / иерархические / многоуровневые предикторы? - они упоминают метод данных панели для деревьев. Существуют ли специальные методы данных панели для поддержки векторных машин и нейронных сетей? Если...

12
почему метод повышения чувствительности к выбросам

Я нашел много статей, в которых говорится, что методы повышения чувствительны к выбросам, но нет статей, объясняющих почему. По моему опыту, выбросы плохи для любого алгоритма машинного обучения, но почему методы повышения выделяются как особенно чувствительные? Как бы оценили следующие алгоритмы с...

12
Случайные Леса показывают смещение предсказания?

Я думаю, что это простой вопрос, хотя причины, почему или почему нет, могут и не быть. Причина, по которой я спрашиваю, состоит в том, что я недавно написал свою собственную реализацию RF, и, хотя она работает хорошо, она работает не так, как я ожидал (на основе набора данных о конкурсе Kaggle...

12
Разница в реализации бинарных разбиений в деревьях решений

Мне интересно узнать о практической реализации бинарного разбиения в дереве решений - поскольку оно относится к уровням категориального предиктора .XjXjX{j} В частности, я часто буду использовать какую-то схему выборки (например, пакетирование, передискретизация и т. Д.) При построении прогнозной...

11
Почему дерево в мешках / случайное лесное дерево имеет более высокий уклон, чем одно дерево решений?

Если мы рассмотрим полноценное дерево решений (т.е. дерево необрезанных решений), оно имеет высокую дисперсию и низкое смещение. Мешки и случайные леса используют эти модели высокой дисперсии и агрегируют их, чтобы уменьшить дисперсию и, таким образом, повысить точность прогнозирования. И Мешки, и...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Существуют ли какие-либо библиотеки для CART-подобных методов, использующих разреженные предикторы и ответы?

Я работаю с некоторыми большими наборами данных, используя пакет gbm в R. И моя матрица предикторов, и мой вектор ответов довольно редки (то есть большинство записей равно нулю). Я надеялся построить деревья решений, используя алгоритм, который использует преимущества этой редкости, как это было...

11
Организация дерева классификации (в rpart) в набор правил?

Существует ли способ построения сложного дерева классификации с использованием rpart (в R) для организации правил принятия решений, создаваемых для каждого класса? Таким образом, вместо того, чтобы получить одно огромное дерево, мы получаем набор правил для каждого из классов? (если так, то как?)...

11
MCMC выборка пространства дерева решений в сравнении со случайным лесом

Случайный лес представляет собой совокупность деревьев решений , сформированных случайным образом выбирая только определенные функции для построения каждого дерева с (а иногда и расфасовке тренировочную данные). По-видимому, они хорошо учатся и обобщают. Кто-нибудь делал выборку MCMC пространства...

11
Деревья решений и регрессия - Могут ли прогнозируемые значения выходить за пределы диапазона данных обучения?

Когда речь идет о деревьях решений, может ли прогнозируемое значение лежать вне диапазона обучающих данных? Например, если диапазон набора обучающих данных целевой переменной составляет 0-100, когда я генерирую свою модель и применяю ее к чему-то другому, могут ли мои значения быть -5? или 150?...

11
Модель классификации для прогнозирования рейтинга фильмов

Я немного новичок в области интеллектуального анализа данных и работаю над моделью классификации для прогнозирования рейтинга фильмов. Я собрал наборы данных из IMDB, и я планирую использовать деревья решений и подходы ближайшего соседа для моей модели. Я хотел бы знать, какой свободно доступный...

11
Как использовать пень принятия решения как слабый ученик в Adaboost?

Я хочу реализовать Adaboost с помощью Decision Stump. Правильно ли принимать столько решений, сколько функций нашего набора данных в каждой итерации Adaboost? Например, если у меня есть набор данных с 24 функциями, должен ли я иметь 24 классификатора решения для каждой итерации? Или я должен...

11
Когда использовать примеси Джини, а когда использовать получение информации?

Может кто-нибудь объяснить мне, когда использовать примеси Джини и информацию для деревьев решений? Можете ли вы дать мне ситуации / примеры того, когда лучше всего использовать...