Коэффициент Джини против примеси Джини - деревья решений

25

Проблема касается построения деревьев решений. Согласно Википедии « коэффициент Джини » не следует путать с « примесью Джини ». Однако обе меры можно использовать при построении дерева решений - они могут поддержать наш выбор при разделении набора элементов.

1) «примесь Джини» - это стандартная метрика разбиения дерева решений (см. Ссылку выше);

2) «Коэффициент Джини» - каждое разбиение может быть оценено на основе критерия AUC. Для каждого сценария расщепления мы можем построить кривую ROC и вычислить метрику AUC. Согласно Википедии AUC = (GiniCoeff + 1) / 2;

Вопрос: обе эти меры эквивалентны? С одной стороны, мне сообщили, что коэффициент Джини не следует путать с примесью Джини. С другой стороны, обе эти меры можно использовать для выполнения одной и той же задачи - оценки качества разделения дерева решений.

Damien
источник
Я пришел к этому вопросу в поисках определения: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

Ответы:

28

Нет, несмотря на их имена, они не эквивалентны или даже похожи.

  • Примесь Джини является мерой неправильной классификации, которая применяется в контексте классификатора мультикласса.
  • Коэффициент Джини применяется к бинарной классификации и требует классификатора, который может каким-то образом ранжировать примеры в соответствии с вероятностью нахождения в положительном классе.

Оба могут применяться в некоторых случаях, но это разные меры для разных вещей. Примеси - это то, что обычно используется в деревьях решений .

Шон Оуэн
источник
7

Я взял пример данных с двумя людьми A и B с богатством единицы 1 и единицы 3 соответственно. Примесь Джини согласно Википедии = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

Коэффициент Джини согласно Википедии будет отношением площади между красной и синей линиями к общей площади под синей линией на следующем графике.

введите описание изображения здесь

Площадь под красной линией 1/2 + 1 + 3/2 = 3

Общая площадь под синей линией = 4

Так коэффициент Джини = 3/4

Ясно, что два числа разные. Я проверю больше случаев, чтобы видеть, являются ли они пропорциональными или есть точные отношения и отредактирую ответ.

Изменить: я проверил и для других комбинаций, соотношение не является постоянным. Ниже приведен список нескольких комбинаций, которые я пробовал. введите описание изображения здесь

Гаурав Сингхал
источник
Какое объяснение !!
Outlier
0

Я думаю, что они оба представляют одну и ту же концепцию.

В деревьях классификации индекс Джини используется для вычисления нечистоты раздела данных. Итак, предположим, что раздел данных D состоит из 4 классов с равной вероятностью. Тогда индекс Джини (примесь Джини) будет: Джини (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)

В CART мы выполняем двоичные сплиты. Таким образом, индекс Джини будет вычислен как взвешенная сумма полученных разделов, и мы выберем разбивку с наименьшим индексом Джини.

Таким образом, использование Gini Impurity (индекса Джини) не ограничивается бинарными ситуациями.

Другим термином для примесей Джини является коэффициент Джини, который обычно используется в качестве меры распределения дохода.

Пасмод Тьюринг
источник
3
Коэффициент Джини не является примесью Джини. Смотрите ссылки в вопросе
Шон Оуэн
2
Википедия не всегда является надежным источником информации :-)
Pasmod Turing
2
Конечно. Посмотрите, где-то еще: mathworld.wolfram.com/GiniCoefficient.html Что заставляет вас думать, что коэффициент Джини = примесь Джини?
Шон Оуэн
Посмотрите это: books.google.de/…
Pasmod Turing
1
Я думаю, что мы говорим о деревьях решений. Так что мы в сфере машинного обучения! Пожалуйста, прочитайте вопрос более внимательно
Pasmod Turing