Когда я должен использовать Gini Impurity, а не Gain?

66

Может ли кто-нибудь практически объяснить обоснованность примеси Джини против получения информации (на основе энтропии)?

Какой показатель лучше использовать в различных сценариях при использовании деревьев решений?

Криш Махаджан
источник
5
@ Anony-Mousse Я думаю, это было очевидно до твоего комментария. Вопрос не в том, имеют ли оба преимущества, а в том, в каких сценариях один лучше другого.
Мартин Тома
Я предложил «Информационный прирост» вместо «Энтропии», поскольку он довольно близок (ИМХО), как отмечено в соответствующих ссылках. Затем в другой форме был задан вопрос: когда использовать примеси Джини, а когда использовать получение информации?
Лоран Дюваль
1
Я разместил здесь простую интерпретацию примеси Джини, которая может оказаться полезной.
Пикауд Винсент

Ответы:

47

Примесь Джини и энтропия информационного усиления практически одинаковы. И люди используют значения взаимозаменяемо. Ниже приведены формулы обоих:

  1. Джини:граммяNя(Е)знак равно1-ΣJзнак равно1спJ2
  2. Энтропия:ЧАС(Е)знак равно-ΣJзнак равно1спJжурналпJ

Если бы у меня был выбор, я бы использовал примесь Джини, поскольку она не требует от меня вычисления логарифмических функций, которые требуют значительных вычислительных ресурсов. Закрытая форма его решения также может быть найдена.

Какой показатель лучше использовать в различных сценариях при использовании деревьев решений?

Примесь Джини по причинам, указанным выше.

Таким образом, они очень похожи в аналитике CART.

Полезная ссылка для вычислительного сравнения двух методов

Dawny33
источник
1
Так часто можно увидеть формулу энтропии, в то время как то, что действительно используется в дереве решений, выглядит как условная энтропия. Я думаю, что это важное различие или что-то упущено?
user1700890
@ user1700890 Алгоритм ID3 использует информацию. получить энтропию. Мне нужно прочитать об условной энтропии. Вероятно, улучшение по сравнению с ID3 :)
Dawny33
1
Я думаю, что ваше определение нечистоты Джини может быть неправильным: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma
22

Как правило, ваша производительность не изменится, используете ли вы примеси Джини или энтропию.

Лаура Елена Райляну и Килиан Стоффель сравнили оба в « Теоретическом сравнении между индексом Джини и критериями получения информации ». Наиболее важными замечаниями были:

  • Это имеет значение только в 2% случаев, используете ли вы примесь Джини или энтропию.
  • Энтропия может быть немного медленнее для вычисления (потому что она использует логарифм).

Мне однажды сказали, что обе метрики существуют, потому что они появились в разных научных дисциплинах.

Арчи
источник
16

Для случая переменной с двумя значениями, появляющейся с дробями f и (1-f),
джини и энтропия определяются как:
gini = 2 * f (1-f)
entropy = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
Эти меры очень похожи, если их масштабировать до 1,0 (график 2 * Джини и энтропии / ln (2)):

Значения Джини (y4, фиолетовый) и энтропии (y3, зеленый), масштабированные для сравнения

DanLvii Dewey
источник
14

Джини предназначен для непрерывных атрибутов, а энтропия - для атрибутов, которые встречаются в классах.

Джини минимизирует ошибочную классификацию.
Энтропия предназначена для исследовательского анализа.

Энтропия немного медленнее вычисляется

NIMISHAN
источник
7

0<U<1,журнал(1-U)знак равно-U-U2/2-U3/3+0<п<1,журнал(п)знак равноп-1-(1-п)2/2-(1-п)3/3+
0<п<1,-пжурнал(п)знак равноп(1-п)+п(1-п)2/2+п(1-п)3/3+
Нормализованные критерии Джини и Энтропии

В конце, как объясняет @NIMISHAN, Джини больше подходит для минимизации ошибочной классификации, поскольку она симметрична 0,5, в то время как энтропия будет больше наказывать малые вероятности.

ClementWalter
источник
3

Энтропия занимает немного больше времени вычислений, чем индекс Gini, из-за вычисления журнала, возможно, именно поэтому индекс Gini стал опцией по умолчанию для многих алгоритмов ML. Но из Tan et. Аль книга Введение в интеллектуальный анализ данных

«Мера загрязненности вполне согласуется друг с другом ... Действительно, стратегия, используемая для обрезки дерева, оказывает большее влияние на конечное дерево, чем выбор меры примеси».

Таким образом, похоже, что выбор меры примеси мало влияет на производительность алгоритмов с одним деревом решений.

Также. «Метод Джини работает, только когда целевая переменная является двоичной переменной». - Обучение прогнозной аналитике с помощью Python.

Ракенд Дубба
источник
3

Я занимался оптимизацией бинарной классификации на прошлой неделе, и в каждом случае энтропия значительно превосходит джини. Это может быть связано с конкретным набором данных, но может показаться, что пробовать оба варианта, в то время как настройка гиперпараметров - это рациональный выбор, а не делать предположения о модели заранее.

Вы никогда не знаете, как будут реагировать данные, пока не запустите статистику.

H Froedge
источник
0

Согласно принципу экономии, Джини превосходит энтропию с точки зрения простоты вычислений (лог, очевидно, включает в себя больше вычислений, чем простое умножение на уровне процессора / компьютера).

Но энтропия определенно имеет преимущество в некоторых случаях данных, связанных с большим дисбалансом.

Поскольку энтропия использует логарифм вероятностей и умножение на вероятности события, то, что происходит в фоновом режиме, это значение более низких вероятностей, которые увеличиваются.

Если распределение вероятностей ваших данных является экспоненциальным или Лапласа (как в случае глубокого обучения, где нам нужно распределение вероятностей в острой точке), энтропия превосходит Джини.

Например, если у вас есть 2 события: одна вероятность 0,01, другая вероятность 0,99.

В Gini prob sq будет .01 ^ 2 + .99 ^ 2, .0001 + .9801 означает, что более низкая вероятность не играет никакой роли, так как все определяется вероятностью большинства.

Теперь в случае энтропии .01 * log (.01) +. 99 * log (.99) = .01 * (- 2) + .99 * (-. 00436) = -.02-.00432 теперь в этом случае отчетливо видны более низкие вероятности с учетом лучшего веса.

Гаурав Догра
источник