Я спрашиваю себя, стоит ли удалять те переменные с отрицательным значением важности переменной ("% IncMSE") в контексте регрессии. А если это даст мне лучший прогноз? Что вы думаете?
Я спрашиваю себя, стоит ли удалять те переменные с отрицательным значением важности переменной ("% IncMSE") в контексте регрессии. А если это даст мне лучший прогноз? Что вы думаете?
Важность переменной в Случайном лесу рассчитывается следующим образом:
Затем значения одного столбца переставляются и MSE вычисляется снова. Например, если столбец (Col1) принимает значения 1,2,3,4, а случайная перестановка значений приводит к 4,3,1,2. Это приводит к MSE1. Тогда увеличение MSE, то есть MSE1 - MSE, будет означать важность этой переменной.
Мы ожидаем, что разница будет положительной, но в случае отрицательного числа это означает, что случайная перестановка работала лучше. Можно сделать вывод, что переменная не играет роли в прогнозе, т. Е. Не важна.
Надеюсь это поможет!
Пожалуйста, обратитесь к следующей ссылке для подробного объяснения!
/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean
Это может быть просто случайное колебание (например, если у вас небольшое ntree).
Если нет, это может показать, что у вас есть серьезное количество парадоксов в ваших данных, то есть пары объектов с почти идентичными предикторами и очень разными результатами. В этом случае я бы дважды проверил, имеет ли модель смысл, и начал бы думать, как получить больше атрибутов для их разрешения.