Я читал другие темы о графиках частичной зависимости, и большинство из них касаются того, как вы на самом деле строите их с помощью разных пакетов, а не того, как вы можете их точно интерпретировать, поэтому:
Я читал и создавал изрядное количество графиков частичной зависимости. Я знаю, что они измеряют предельное влияние переменной χs на функцию ƒS (χS) со средним влиянием всех других переменных (χc) из моей модели. Более высокие значения y означают, что они оказывают большее влияние на точное прогнозирование моего класса. Однако я не удовлетворен этой качественной интерпретацией.
Моя модель (случайный лес) предсказывает два дискретных класса. «Да деревья» и «Нет деревьев». TRI - это переменная, которая оказалась хорошей переменной для этого.
Я начал думать, что значение Y показывает вероятность правильной классификации. Пример: y (0,2) показывает, что значения TRI> ~ 30 имеют 20% шанс правильно идентифицировать истинно положительную классификацию.
Где наоборот
y (-0.2) показывает, что значения TRI <~ 15 имеют 20% шанс правильно идентифицировать истинно отрицательную классификацию.
Общие интерпретации, сделанные в литературе, будут звучать так: «Значения, превышающие TRI 30, начинают оказывать положительное влияние на классификацию в вашей модели», и все. Это звучит так расплывчато и бессмысленно для сюжета, который потенциально может так много говорить о ваших данных.
Кроме того, все мои графики ограничены в диапазоне от -1 до 1 для оси y. Я видел другие графики с -10 до 10 и т. Д. Является ли это функцией того, сколько классов вы пытаетесь предсказать?
Мне было интересно, если кто-нибудь может говорить с этой проблемой. Может быть, покажите мне, как я должен интерпретировать эти сюжеты или какую-нибудь литературу, которая может мне помочь. Может быть, я читаю слишком далеко в этом?
Я очень внимательно прочитал элементы статистического обучения: интеллектуальный анализ данных, умозаключения и предсказания, и это было отличной отправной точкой, но это все.
источник
Ответы:
Каждая точка на графике частичной зависимости представляет собой средний процент голосов в пользу класса «Да деревья» по всем наблюдениям с учетом фиксированного уровня TRI.
Это не вероятность правильной классификации. Это не имеет абсолютно никакого отношения к точности, истинным негативам и истинным позитивам.
Когда вы видите фразу
это надутый способ сказать
источник
Функция частичной зависимости в основном дает вам «средний» тренд этой переменной (интегрируя все остальные в модели). Это форма этой тенденции, которая "важна". Вы можете интерпретировать относительный диапазон этих графиков из разных переменных предиктора, но не абсолютный диапазон. Надеюсь, это поможет.
источник
Чтобы взглянуть на значения по оси Y, нужно, чтобы они были относительно друг друга на других графиках. Если это число выше, чем на других графиках в абсолютных значениях, это означает, что оно более важно, поскольку влияние этой переменной на выходные данные больше.
Если вас интересует математика, лежащая в основе графиков частичной зависимости, и то, как это число является оценочным, вы можете найти его здесь: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf, раздел 8.1
источник