Может ли кто-нибудь объяснить основные различия между деревьями условного вывода ( ctree
из party
пакета в R) по сравнению с более традиционными алгоритмами дерева решений (такими как rpart
в R)?
- Что отличает CI-деревья?
- Сильные и слабые стороны?
Обновление: я посмотрел на статью Хортхорна и др., На которую ссылается Чи в комментариях. Я не смог полностью им следовать - может кто-нибудь объяснить, как переменные выбираются с помощью перестановок (например, что такое функция влияния)?
Спасибо!
r
machine-learning
cart
B_Miner
источник
источник
Ответы:
Для чего это стоит:
так
rpart
иctree
рекурсивно выполнять одномерные расколы зависимой переменной на основе значений на множестве ковариаций.rpart
и связанные алгоритмы обычно используют информационные меры (такие как коэффициент Джини ) для выбора текущего ковариата.ctree
согласно его авторам (см . комментарии chl ) избегает следующего смещения выбора переменныхrpart
(и связанных методов): они имеют тенденцию выбирать переменные, которые имеют много возможных расщеплений или много пропущенных значений. В отличие от других,ctree
используется процедура проверки значимости для выбора переменных вместо выбора переменной, которая максимизирует информационную меру (например, коэффициент Джини).Тест значимости, или лучше: тесты множественной значимости, рассчитанные при каждом запуске алгоритма (выберите ковариацию - выберите расщепление - рекурсивный), являются тестами перестановки , то есть «распределение статистики теста при нулевой гипотезе получается путем вычисления все возможные значения тестовой статистики при перестановках меток на наблюдаемых точках данных ». (из статьи в википедии).
Теперь для тестовой статистики: она вычисляется из преобразований (включая тождество, то есть без преобразования) зависимой переменной и ковариат. Вы можете выбрать любое из нескольких преобразований для обеих переменных. Для DV (зависимая переменная) преобразование называется функцией влияния, о которой вы спрашивали.
Примеры (взяты из статьи ):
Небольшой пример для теста перестановки в
R
:Теперь предположим, что у вас есть набор ковариат, а не только один, как указано выше. Затем вычислите p-значения для каждого из ковариат, как в приведенной выше схеме, и выберите значение с наименьшим p- значением. Вы хотите вычислить p-значения вместо корреляций напрямую, потому что у вас могут быть ковариаты разных видов (например, числовые и категориальные).
После того, как вы выбрали ковариату, теперь изучите все возможные расщепления (или часто как-то ограниченное число всех возможных расщеплений, например, требуя минимальное количество элементов DV перед расщеплением), снова оценивая тест на основе перестановок.
ctree
поставляется с рядом возможных преобразований как для DV, так и для ковариат (см. справкуTransformations
вparty
пакете).поэтому, как правило, основное различие заключается в том, что
ctree
используется ковариатная схема выбора, основанная на статистической теории (то есть выбор с помощью тестов значимости на основе перестановок), что позволяет избежать потенциального смещения, вrpart
противном случае они кажутся похожими; Например, деревья условного вывода могут использоваться в качестве базовых учащихся для случайных лесов.Это примерно, насколько я могу получить. Для получения дополнительной информации вам действительно нужно прочитать документы. Обратите внимание, что я настоятельно рекомендую вам действительно знать, что вы делаете, когда хотите применить какой-либо статистический анализ.
источник