Проблема касается построения деревьев решений. Согласно Википедии « коэффициент Джини » не следует путать с « примесью Джини ». Однако обе меры можно использовать при построении дерева решений - они могут поддержать наш выбор при разделении набора элементов.
1) «примесь Джини» - это стандартная метрика разбиения дерева решений (см. Ссылку выше);
2) «Коэффициент Джини» - каждое разбиение может быть оценено на основе критерия AUC. Для каждого сценария расщепления мы можем построить кривую ROC и вычислить метрику AUC. Согласно Википедии AUC = (GiniCoeff + 1) / 2;
Вопрос: обе эти меры эквивалентны? С одной стороны, мне сообщили, что коэффициент Джини не следует путать с примесью Джини. С другой стороны, обе эти меры можно использовать для выполнения одной и той же задачи - оценки качества разделения дерева решений.
источник
Ответы:
Нет, несмотря на их имена, они не эквивалентны или даже похожи.
Оба могут применяться в некоторых случаях, но это разные меры для разных вещей. Примеси - это то, что обычно используется в деревьях решений .
источник
Я взял пример данных с двумя людьми A и B с богатством единицы 1 и единицы 3 соответственно. Примесь Джини согласно Википедии = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8
Коэффициент Джини согласно Википедии будет отношением площади между красной и синей линиями к общей площади под синей линией на следующем графике.
Площадь под красной линией 1/2 + 1 + 3/2 = 3
Общая площадь под синей линией = 4
Так коэффициент Джини = 3/4
Ясно, что два числа разные. Я проверю больше случаев, чтобы видеть, являются ли они пропорциональными или есть точные отношения и отредактирую ответ.
Изменить: я проверил и для других комбинаций, соотношение не является постоянным. Ниже приведен список нескольких комбинаций, которые я пробовал.
источник
Я думаю, что они оба представляют одну и ту же концепцию.
В деревьях классификации индекс Джини используется для вычисления нечистоты раздела данных. Итак, предположим, что раздел данных D состоит из 4 классов с равной вероятностью. Тогда индекс Джини (примесь Джини) будет: Джини (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)
В CART мы выполняем двоичные сплиты. Таким образом, индекс Джини будет вычислен как взвешенная сумма полученных разделов, и мы выберем разбивку с наименьшим индексом Джини.
Таким образом, использование Gini Impurity (индекса Джини) не ограничивается бинарными ситуациями.
Другим термином для примесей Джини является коэффициент Джини, который обычно используется в качестве меры распределения дохода.
источник