Значение переменной randomForest отрицательные значения

10

Я спрашиваю себя, стоит ли удалять те переменные с отрицательным значением важности переменной ("% IncMSE") в контексте регрессии. А если это даст мне лучший прогноз? Что вы думаете?

Giuseppe
источник

Ответы:

5

Важность переменной в Случайном лесу рассчитывается следующим образом:

  1. Первоначально MSE модели рассчитывается с исходными переменными
  2. Затем значения одного столбца переставляются и MSE вычисляется снова. Например, если столбец (Col1) принимает значения 1,2,3,4, а случайная перестановка значений приводит к 4,3,1,2. Это приводит к MSE1. Тогда увеличение MSE, то есть MSE1 - MSE, будет означать важность этой переменной.

  3. Мы ожидаем, что разница будет положительной, но в случае отрицательного числа это означает, что случайная перестановка работала лучше. Можно сделать вывод, что переменная не играет роли в прогнозе, т. Е. Не важна.

Надеюсь это поможет!

Пожалуйста, обратитесь к следующей ссылке для подробного объяснения!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean

Амол Моди
источник
3

Это может быть просто случайное колебание (например, если у вас небольшое ntree).

Если нет, это может показать, что у вас есть серьезное количество парадоксов в ваших данных, то есть пары объектов с почти идентичными предикторами и очень разными результатами. В этом случае я бы дважды проверил, имеет ли модель смысл, и начал бы думать, как получить больше атрибутов для их разрешения.


источник
2
Не могли бы вы подробнее рассказать о «парадоксах в данных»? Я не совсем поняла и хотела бы понять, что вы объясняете.
JEquihua