Вопросы с тегом «decision-trees»

Дерево решений - это инструмент поддержки принятия решений, который использует древовидный граф или модель решений и их возможных последствий, включая случайные исходы событий, затраты на ресурсы и полезность. Это один из способов отобразить алгоритм.

66
Когда я должен использовать Gini Impurity, а не Gain?

Может ли кто-нибудь практически объяснить обоснованность примеси Джини против получения информации (на основе энтропии)? Какой показатель лучше использовать в различных сценариях при использовании деревьев...

64
строки как объекты в дереве решений / случайном лесу

Я делаю некоторые проблемы с применением дерева решений / случайного леса. Я пытаюсь приспособить проблему, в которой в качестве функций есть цифры, а также строки (например, название страны). Теперь библиотека scikit-learn принимает только числа в качестве параметров, но я хочу ввести строки, так...

25
Зачем нам XGBoost и Random Forest?

Я не был ясен в паре концепций: XGBoost превращает слабых учеников в сильных учеников. В чем преимущество этого? Объединить много слабых учеников вместо одного дерева? Random Forest использует различные образцы из дерева для создания дерева. В чем преимущество этого метода вместо использования...

21
Являются ли алгоритмы дерева решений линейными или нелинейными

Недавно моего друга спросили, являются ли алгоритмы дерева решений линейными или нелинейными алгоритмами в интервью. Я пытался найти ответы на этот вопрос, но не смог найти удовлетворительного объяснения. Может кто-нибудь ответить и объяснить решение этого вопроса? Кроме того, каковы некоторые...

16
Как предсказать вероятности в xgboost?

Приведенная ниже функция прогнозирования также дает значения -ve, поэтому она не может быть вероятностью. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Я...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

15
Дерево решений против KNN

В каких случаях лучше использовать дерево решений, а в других случаях - KNN? Зачем использовать один из них в определенных случаях? А другие в разных случаях? (Глядя на его функциональность, а не на алгоритм) У кого-нибудь есть объяснения или ссылки по этому...

14
Дерево решений или логистическая регрессия?

Я работаю над проблемой классификации. У меня есть набор данных, содержащий равное количество категориальных переменных и непрерывных переменных. Как я узнаю, какую технику использовать? между деревом решений и логистической регрессией? Правильно ли предположить, что логистическая регрессия будет...

14
Как выбрать точку разделения для непрерывных переменных в деревьях решений?

У меня есть два вопроса, связанных с деревьями решений: Если у нас есть непрерывный атрибут, как мы выбираем значение разделения? Пример: возраст = (20,29,50,40 ....) Представьте себе , что мы имеем непрерывный атрибут , которые имеют значение в . Как я могу написать алгоритм, который находит точку...

14
Деревья решений: листовое (лучшее-первое) и горизонтальное дерево

Выпуск 1: Меня смущает описание LightGBM относительно способа расширения дерева. Они заявляют: Большинство алгоритмов обучения дерева решений растут по дереву по уровню (глубине), как показано на следующем рисунке: Вопросы 1 : Какие «большинство» алгоритмов реализованы таким образом? Насколько я...

14
Могут ли деревья с градиентным усилением соответствовать любой функции?

Для нейронных сетей мы имеем универсальную теорему аппроксимации, которая утверждает, что нейронные сети могут аппроксимировать любую непрерывную функцию на компактном подмножестве .рNрNR^n Есть ли аналогичный результат для деревьев с градиентным усилением? Это кажется разумным, так как вы можете...

11
Несбалансированные классы - Как минимизировать ложные негативы?

У меня есть набор данных, который имеет атрибут бинарного класса. Имеется 623 случая с классом +1 (рак положительный) и 101 671 случай с классом -1 (рак отрицательный). Я пробовал различные алгоритмы (Наивный Байес, Случайный лес, AODE, C4.5), и все они имеют недопустимые ложноотрицательные...

11
Могут ли деревья регрессии предсказывать непрерывно?

Предположим, у меня есть гладкая функция типа е( х , у) = х2+ у2е(Икс,Y)знак равноИкс2+Y2f(x, y) = x^2+y^2 . У меня есть тренировочный набор и, конечно, я не знаю f, хотя я могу оценить f где угодно.D ⊊ { ( ( х , у) , ф(х , у) ) |( х , у) ∈ R2}D⊊{((Икс,Y),е(Икс,Y))|(Икс,Y)∈р2}D \subsetneq \{((x,...

10
Как нормализовать данные для нейронной сети и леса принятия решений

У меня есть набор данных с 20000 сэмплами, каждый имеет 12 различных функций. Каждая выборка относится к категории 0 или 1. Я хочу обучить нейронную сеть и лес решений для классификации выборок, чтобы можно было сравнить результаты и оба метода. Первое, на что я наткнулся, это правильная...

9
Интерпретация дерева решений в контексте важности функций

Я пытаюсь понять, как полностью понять процесс принятия решений модели классификации дерева решений, построенной с использованием sklearn. Два основных аспекта, на которые я смотрю, - это графическое представление дерева и список важных функций. Что я не понимаю, так это то, как важность функции...