Когда использовать примеси Джини, а когда использовать получение информации?

11

Может кто-нибудь объяснить мне, когда использовать примеси Джини и информацию для деревьев решений? Можете ли вы дать мне ситуации / примеры того, когда лучше всего использовать какие?

Джек Твен
источник

Ответы:

9

Вы должны попробовать их обоих как часть настройки параметров.

Теоретически, примеси Джини сводят к минимуму оценку Бриера, в то время как энтропия / выигрыш в информации сводят к минимуму потери логарифма, так что из тех, кого вы интересуете, имеет значение. Однако есть и другие вещи, такие как вероятность того, что каждый из них обнаружит многовариантные эффекты в росте жадных деревьев, вместо того, чтобы «отвлекаться» от одномерных, которые также играют на вещи. Т.е. вы можете получить лучшее обобщение из метрики примеси, которая не всегда выбирает «лучшее» разделение.

На практике (в контексте ВЧ, больше, чем корзина) я обнаружил, что энтропия лучше работает для более чистых низкоразмерных наборов данных, где вы пытаетесь максимально приспособить более сложный сигнал, в то время как джини работает лучше для шумных, многомерных те, где вы пытаетесь раскрыть простой сигнал из множества шумных потенциальных сигналов. Это всего лишь мой опыт, и почти наверняка он будет не во всех случаях.

Примечание: начинался как комментарий, но удалялся и перемещался к ответу, чтобы отформатировать детали.

Райан Бресслер
источник