Какая функция стоимости лучше для случайного лесного дерева: индекс Джини или энтропия?
Я пытаюсь реализовать случайный лес в Clojure.
Какая функция стоимости лучше для случайного лесного дерева: индекс Джини или энтропия?
Я пытаюсь реализовать случайный лес в Clojure.
Как я обнаружил во введении к интеллектуальному анализу данных Tan et. аль:
Исследования показали, что выбор меры примеси мало влияет на производительность алгоритмов индукции дерева решений. Это потому, что многие примесные меры вполне соответствуют друг другу [...]. Действительно, стратегия, используемая для обрезки дерева, оказывает большее влияние на конечное дерево, чем выбор меры загрязненности.
Поэтому вы можете использовать индекс Джини, например CART, или энтропию, например C4.5.
Я бы использовал Entropy, а точнее коэффициент усиления C4.5, потому что вы можете легко следовать хорошо написанной книге Quinlan: C4.5 Программы для машинного обучения.