Вопросы с тегом «cart»

«Деревья классификации и регрессии». CART - это популярный метод машинного обучения, который служит основой для таких методов, как случайные леса и общие реализации машин с градиентным ускорением.

127
Получение знаний из случайного леса

Случайные леса считаются черными ящиками, но недавно я подумал, какие знания можно получить из случайного леса? Наиболее очевидной вещью является важность переменных, в простейшем варианте это можно сделать, просто рассчитав количество вхождений переменной. Второе, о чем я думал, это...

110
Градиентное дерево против случайного леса

Повышение градиентного дерева, предложенное Фридманом, использует деревья решений в качестве базовых учеников. Мне интересно, должны ли мы сделать базовое дерево решений настолько сложным, насколько это возможно (полностью выросло) или проще? Есть ли объяснение выбора? Случайный лес - это еще один...

97
Деревья условного вывода против традиционных деревьев решений

Может ли кто-нибудь объяснить основные различия между деревьями условного вывода ( ctreeиз partyпакета в R) по сравнению с более традиционными алгоритмами дерева решений (такими как rpartв R)? Что отличает CI-деревья? Сильные и слабые стороны? Обновление: я посмотрел на статью Хортхорна и др., На...

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

65
Практические вопросы по настройке случайных лесов

Мои вопросы о случайных лесах. Концепция этого красивого классификатора мне ясна, но все же есть много практических вопросов использования. К сожалению, мне не удалось найти никакого практического руководства по ВЧ (я искал что-то вроде «Практического руководства по обучению машин Больцмана с...

62
Как на самом деле построить образец дерева из randomForest :: getTree ()? [закрыто]

Кто-нибудь получил библиотеку или предложения кода о том, как на самом деле построить пару образцов деревьев из: getTree(rfobj, k, labelVar=TRUE) (Да, я знаю, что вы не должны делать это оперативно, RF - это черный ящик и т. Д. И т. Д. Я хочу визуально проверить работоспособность дерева, чтобы...

45
Что такое девианс? (конкретно в CART / rpart)

Что такое «отклонение», как оно рассчитывается и как его используют в различных областях статистики? В частности, меня лично интересует его использование в CART (и его реализация в rpart в R). Я спрашиваю об этом, потому что в вики-статье, похоже, чего-то не хватает, и ваши идеи будут...

43
Обучение дерева решений против несбалансированных данных

Я новичок в области интеллектуального анализа данных и пытаюсь настроить дерево решений на основе набора данных, который сильно разбалансирован. Однако у меня проблемы с плохой точностью прогнозирования. Данные состоят из студентов, изучающих курсы, а переменная класса - это статус курса, который...

38
Почему деревья решений не требуют вычислительных затрат?

В «Введении в статистическое обучение с приложениями в R» авторы пишут, что подгонка дерева решений происходит очень быстро, но для меня это не имеет смысла. Алгоритм должен пройти через каждую функцию и разделить ее всеми возможными способами, чтобы найти оптимальное разбиение. Для числовых...

34
Какова слабая сторона деревьев решений?

Деревья решений кажутся очень понятным методом машинного обучения. После создания он может быть легко проверен человеком, что является большим преимуществом в некоторых приложениях. Каковы практические слабые стороны деревьев...

33
Как случайные леса не чувствительны к выбросам?

Я читал в нескольких источниках, в том числе и в этом , что случайные леса не чувствительны к выбросам (например, как логистическая регрессия и другие методы ML). Тем не менее, две части интуиции говорят мне иначе: Всякий раз, когда построено дерево решений, все точки должны быть классифицированы....

33
Относительная важность переменной для повышения

Я ищу объяснение того, как относительная важность переменной вычисляется в деревьях с градиентным усилением, которое не является слишком общим / упрощенным, например: Измерения основаны на количестве раз, которое переменная была выбрана для расщепления, взвешенной по квадрату улучшения модели в...

31
Каковы некоторые полезные рекомендации для параметров GBM?

Каковы некоторые полезные рекомендации для тестирования параметров (например, глубина взаимодействия, minchild, частота выборки и т. Д.) С использованием GBM? Допустим, у меня 70-100 функций, население 200 000, и я собираюсь проверить глубину взаимодействия 3 и 4. Очевидно, мне нужно провести...

27
Как измерить / оценить «важность переменной» при использовании CART? (особенно используя {rpart} из R)

При построении модели CART (в частности, дерева классификации) с использованием rpart (в R) часто бывает интересно узнать, какова важность различных переменных, введенных в модель. Таким образом, мой вопрос: какие общие меры существуют для ранжирования / измерения важности переменных участвующих...

24
Кто изобрел дерево решений?

Я пытаюсь отследить, кто изобрел структуру данных и алгоритм дерева решений. В статье в Википедии об изучении дерева решений есть утверждение, что «ID3 и CART были изобретены независимо примерно в одно и то же время (между 1970 и 1980 годами)». ID3 был представлен позже в: Quinlan, JR 1986....

23
CHAID против CRT (или CART)

Я выполняю классификацию дерева решений с использованием SPSS для набора данных, содержащего около 20 предикторов (категориальных с несколькими категориями). CHAID (автоматическое обнаружение взаимодействия по критерию хи-квадрат) и CRT / CART (деревья классификации и регрессии) дают мне разные...

23
Альтернативы деревьям классификации, с лучшей прогностической (например, CV) эффективностью?

Я ищу альтернативу деревьям классификации, которая могла бы дать лучшую предсказательную силу. Данные, с которыми я имею дело, имеют факторы как для объясняющих, так и для объясненных переменных. Я помню, что сталкивался со случайными лесами и нейронными сетями в этом контексте, хотя никогда не...

21
Являются ли деревья решений почти всегда бинарными деревьями?

Почти каждый пример дерева решений, с которым я сталкивался, является двоичным деревом. Это в значительной степени универсально? Поддерживает ли большинство стандартных алгоритмов (C4.5, CART и т. Д.) Только двоичные деревья? Из того, что я понял , CHAID не ограничивается бинарными деревьями, но...

21
Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли...