Вопросы с тегом «cart»

10
В каких реализациях требуется масштабирование переменных (возможностей) и нормализация (настройка) переменных деревьев решений?

Во многих алгоритмах машинного обучения масштабирование функций (или переменное масштабирование, нормализация) является обычным этапом предварительной обработки. Википедия - Масштабирование функций - этот вопрос был близким Вопрос № 41704 - Как и почему работают нормализация и масштабирование...

10
R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

10
Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние...

10
Размер дерева при увеличении градиентного дерева

Повышение градиентного дерева, предложенное Фридманом, использует деревья решений с Jконечными узлами (= листья) в качестве базовых обучающихся. Есть несколько способов вырастить дерево с точно такими же Jузлами, например, вы можете вырастить дерево в глубину или в ширину ... Есть ли установленный...

9
Изучение различий между популяциями

Скажем, у нас есть выборка из двух групп населения: Aи B. Давайте предположим, что эти группы состоят из отдельных лиц, и мы решили описать людей с точки зрения особенностей. Некоторые из этих функций являются категориальными (например, они ездят на работу?), А некоторые являются числовыми...

9
Оценки дерева ВСЕГДА смещены?

Я делаю домашнюю работу по деревьям принятия решений, и один из вопросов, на которые я должен ответить, это «Почему оценки построены из предвзятых деревьев, и как мешки помогают уменьшить их дисперсию?». Теперь я знаю, что переоснащенные модели, как правило, имеют очень низкий уклон, потому что они...

9
Как выбрать количество сплитов в rpart ()?

Я использовал rpart.controlдля minsplit=2, и получил следующие результаты от rpart()функции. Чтобы избежать перегрузки данных, нужно ли использовать разделение 3 или разделение 7? Разве я не должен использовать сплит 7? Пожалуйста, дайте мне знать. Переменные, фактически используемые в построении...

9
Улавливают ли деревья CART взаимодействия между предикторами?

В этой статье утверждается, что в CART, поскольку двоичное разбиение выполняется в одной ковариате на каждом шаге, все разбиения являются ортогональными и, следовательно, взаимодействия между ковариатами не рассматриваются. Тем не менее, многие очень серьезные ссылки утверждают, напротив, что...

9
Как оценить качество пригодности для жизненных функций

Я новичок в анализе выживания, хотя у меня есть некоторые знания в области классификации и регрессии. Для регрессии мы имеем статистику MSE и R square. Но как мы можем сказать, что модель выживания A превосходит модель выживания B помимо каких-то графических графиков (кривая КМ)? Если возможно,...