Как выбрать точку разделения для непрерывных переменных в деревьях решений?

14

У меня есть два вопроса, связанных с деревьями решений:

  1. Если у нас есть непрерывный атрибут, как мы выбираем значение разделения?

    Пример: возраст = (20,29,50,40 ....)

  2. Представьте себе , что мы имеем непрерывный атрибут , которые имеют значение в . Как я могу написать алгоритм, который находит точку разделения , чтобы при разделении на мы имели минимальное усиление для ?fRvfvf>v

WALID BELRHALMIA
источник

Ответы:

18

(20,29,40,50)(24.5,34.5,45)

Вы можете сэкономить некоторое время вычислений, проверяя только точки разделения, которые лежат между примерами разных классов, потому что только эти разделения могут быть оптимальными для получения информации.

timleathart
источник
@timleathart OP ожидает, что реализация будет «ложно накормлена» реализацией в R. Интересно, что до сих пор пробовал OP со ссылкой на реализацию R? Как насчет «показать некоторые усилия», ОП?
МНМ
@timleathart, но обычно для атрибута f мы выбираем разделение v, которое дает наибольшее информационное увеличение для f> v, но здесь давайте посмотрим на вопрос, который они задали для минимального усиления.
WALID BELRHALMIA
@timleathart, можешь объяснить подробнее? Мне нужно знать оптимальный оптимизированный способ выявления таких расщеплений и проверки получения информации. Допустим, одна переменная имеет много вариаций, а другая почти постоянна. Сколько таких расколов должно быть?
Арпит Сисодия
@timeleathart, расширяя ваш ответ, это разделение не будет оптимизировано, когда значения (20,21,22,23, 45,67,80). разве нельзя использовать итерацию от минимума до максимума? Пожалуйста, поправьте меня, если я ошибаюсь в моем предположении :)
Arpit Sisodia
Это проясняет мои заблуждения!
Цзиньхуа Ван