Отвечая на эти два вопроса в первую очередь:
В частности, что означают отрицательные значения? Что значит иметь негативное влияние на точное предсказание класса?
Если вы посмотрите на определение того, как частичный график вычисляется в документации пакета Random Forest , он говорит, что графики показывают относительный логитный вклад переменной в вероятность класса с точки зрения модели. Другими словами, отрицательные значения (по оси Y) означают, что положительный класс менее вероятен для этого значения независимой переменной (по оси X) в соответствии с моделью. Точно так же положительные значения означают, что положительный класс более вероятен для этого значения независимой переменной в соответствии с моделью. Ясно, что ноль не подразумевает никакого среднего влияния на классовую вероятность согласно модели.
И что является наиболее важной характеристикой этих цифр, это максимальное значение, форма тренда и т. Д.?
Существует много разных подходов для определения важности функции, и максимальное абсолютное значение - это всего лишь одна простая мера. Как правило, люди смотрят на форму частичных графиков, чтобы собрать понимание того, что модель предлагает в отношении отношений от переменных к меткам классов.
Можете ли вы сравнить частичные графики с частичными графиками других переменных?
Ответ на это менее черно-белый. Вы можете определенно взглянуть на диапазон оси Y для каждого графика; Если частичная зависимость от одной переменной близка к нулю для всего диапазона переменной, это говорит о том, что модель не имеет никакого отношения от переменной к метке класса. Возвращаясь к вашему вопросу, чем больше диапазон, тем сильнее влияние в целом, поэтому в этом смысле их можно сравнивать.
У меня нет опыта работы с Максентом.
y
это фактор, то предполагается, что это проблема классификации. Однако он не говорит, какой фактор будет отображаться в положительном или отрицательном классе. Я хотел бы надеяться, что 1 или true сопоставлены с положительным классом, а 0, -1 или false сопоставлены с отрицательным классом, но я бы не принял это как должное в R.which.class
аргументе есть аргумент,partialPlot
и по умолчанию используется первый уровень фактораy
. Таким образом, если первый уровеньy
является отрицательным случаем, тоpartialPlot
будет предсказывать отрицательные случаи, которые могут не соответствовать ожиданиям.