Какая функция стоимости лучше для случайного лесного дерева: индекс Джини или энтропия?

12

Какая функция стоимости лучше для случайного лесного дерева: индекс Джини или энтропия?

Я пытаюсь реализовать случайный лес в Clojure.

Вивек
источник

Ответы:

9

Как я обнаружил во введении к интеллектуальному анализу данных Tan et. аль:

Исследования показали, что выбор меры примеси мало влияет на производительность алгоритмов индукции дерева решений. Это потому, что многие примесные меры вполне соответствуют друг другу [...]. Действительно, стратегия, используемая для обрезки дерева, оказывает большее влияние на конечное дерево, чем выбор меры загрязненности.

Поэтому вы можете использовать индекс Джини, например CART, или энтропию, например C4.5.

Я бы использовал Entropy, а точнее коэффициент усиления C4.5, потому что вы можете легко следовать хорошо написанной книге Quinlan: C4.5 Программы для машинного обучения.

Симона
источник
3
Небольшое замечание - энтропия использует журналы, что может быть проблемой вычислительного времени.
8
Это замечание касается чистых деревьев решений, а не случайных лесов. Обычно вы не обрезаете дерево в случайном лесу, потому что не пытаетесь построить лучшее дерево. Так что говорить о том, что важнее: обрезка или мера нечистоты, вводит в заблуждение. Цель состоит в том, чтобы найти лучшее дерево для использования со случайным лесом.
Чан-Хо Су