В случайном лесу больше% IncMSE лучше или хуже?

17

После того как я построил (R) модель случайного леса в R, вызов rf$importanceпредоставляет мне две меры для каждой переменной-предиктора, %IncMSEи IncNodePurity. Является ли интерпретация того, что предикторные переменные с меньшими %IncMSEзначениями важнее, чем предикторные переменные с большими %IncMSEзначениями?

Как насчет IncNodePurity?

derNincompoop
источник

Ответы:

30

% IncMSE является наиболее надежной и информативной мерой. Это увеличение mse прогнозов (оцениваемых с использованием CV вне упаковки) в результате перестановки переменной j (значения случайным образом перемешиваются).

  1. Расти регрессивный лес. Вычислите OOB-mse, назовите это mse0.
  2. от 1 до j var: переставить значения столбца j, затем предсказать и вычислить OOB-mse (j)
  3. % IncMSE от j'th (mse (j) -mse0) / mse0 * 100%

чем выше число, тем важнее

IncNodePurity относится к функции потерь, которая выбирается лучшими разбиениями. Функция потерь mse для регрессии и gini-примесь для классификации. Более полезные переменные достигают более высокого увеличения чистоты узлов, то есть находят разделение, которое имеет высокую межузловую «дисперсию» и небольшую внутриузловую «дисперсию». IncNodePurity смещен и должен использоваться, только если дополнительное время вычисления вычисления% IncMSE недопустимо. Поскольку для расчета% IncMSE требуется всего ~ 5-25% дополнительного времени, этого почти никогда не произойдет.

Аналогичный вопрос и ответ

Сорен Хавелунд Веллинг
источник