Может ли кто-нибудь практически объяснить обоснованность примеси Джини против получения информации (на основе энтропии)?
Какой показатель лучше использовать в различных сценариях при использовании деревьев решений?
machine-learning
decision-trees
Криш Махаджан
источник
источник
Ответы:
Примесь Джини и энтропия информационного усиления практически одинаковы. И люди используют значения взаимозаменяемо. Ниже приведены формулы обоих:
Если бы у меня был выбор, я бы использовал примесь Джини, поскольку она не требует от меня вычисления логарифмических функций, которые требуют значительных вычислительных ресурсов. Закрытая форма его решения также может быть найдена.
Примесь Джини по причинам, указанным выше.
Таким образом, они очень похожи в аналитике CART.
Полезная ссылка для вычислительного сравнения двух методов
источник
Как правило, ваша производительность не изменится, используете ли вы примеси Джини или энтропию.
Лаура Елена Райляну и Килиан Стоффель сравнили оба в « Теоретическом сравнении между индексом Джини и критериями получения информации ». Наиболее важными замечаниями были:
Мне однажды сказали, что обе метрики существуют, потому что они появились в разных научных дисциплинах.
источник
Для случая переменной с двумя значениями, появляющейся с дробями f и (1-f),
джини и энтропия определяются как:
gini = 2 * f (1-f)
entropy = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
Эти меры очень похожи, если их масштабировать до 1,0 (график 2 * Джини и энтропии / ln (2)):
источник
Джини минимизирует ошибочную классификацию.
Энтропия предназначена для исследовательского анализа.
источник
В конце, как объясняет @NIMISHAN, Джини больше подходит для минимизации ошибочной классификации, поскольку она симметрична 0,5, в то время как энтропия будет больше наказывать малые вероятности.
источник
Энтропия занимает немного больше времени вычислений, чем индекс Gini, из-за вычисления журнала, возможно, именно поэтому индекс Gini стал опцией по умолчанию для многих алгоритмов ML. Но из Tan et. Аль книга Введение в интеллектуальный анализ данных
«Мера загрязненности вполне согласуется друг с другом ... Действительно, стратегия, используемая для обрезки дерева, оказывает большее влияние на конечное дерево, чем выбор меры примеси».
Таким образом, похоже, что выбор меры примеси мало влияет на производительность алгоритмов с одним деревом решений.
Также. «Метод Джини работает, только когда целевая переменная является двоичной переменной». - Обучение прогнозной аналитике с помощью Python.
источник
Я занимался оптимизацией бинарной классификации на прошлой неделе, и в каждом случае энтропия значительно превосходит джини. Это может быть связано с конкретным набором данных, но может показаться, что пробовать оба варианта, в то время как настройка гиперпараметров - это рациональный выбор, а не делать предположения о модели заранее.
Вы никогда не знаете, как будут реагировать данные, пока не запустите статистику.
источник
Согласно принципу экономии, Джини превосходит энтропию с точки зрения простоты вычислений (лог, очевидно, включает в себя больше вычислений, чем простое умножение на уровне процессора / компьютера).
Но энтропия определенно имеет преимущество в некоторых случаях данных, связанных с большим дисбалансом.
Поскольку энтропия использует логарифм вероятностей и умножение на вероятности события, то, что происходит в фоновом режиме, это значение более низких вероятностей, которые увеличиваются.
Если распределение вероятностей ваших данных является экспоненциальным или Лапласа (как в случае глубокого обучения, где нам нужно распределение вероятностей в острой точке), энтропия превосходит Джини.
Например, если у вас есть 2 события: одна вероятность 0,01, другая вероятность 0,99.
В Gini prob sq будет .01 ^ 2 + .99 ^ 2, .0001 + .9801 означает, что более низкая вероятность не играет никакой роли, так как все определяется вероятностью большинства.
Теперь в случае энтропии .01 * log (.01) +. 99 * log (.99) = .01 * (- 2) + .99 * (-. 00436) = -.02-.00432 теперь в этом случае отчетливо видны более низкие вероятности с учетом лучшего веса.
источник