Я делаю перекрестную проверку, используя метод "оставь один". Я получил бинарный ответ и использую загрузочный пакет для R и функцию cv.glm . Моя проблема в том, что я не до конца понимаю часть затрат в этой функции. Из того, что я могу понять, это функция, которая решает, следует ли классифицировать оценочное значение как 1 или 0, то есть пороговое значение для классификации. Это верно?
И, в помощи в R они используют эту функцию для биномиальной модели: cost <- function(r, pi = 0) mean(abs(r-pi) > 0.5)
. Как мне интерпретировать эту функцию? так что я могу изменить его правильно для моего анализа.
Любая помощь приветствуется, я не хочу использовать функцию, которую я не понимаю.
Во-первых, вы установили порог 0,5. Ваш r равен 0/1, но пи - это вероятность. Таким образом, индивидуальная стоимость равна 1, если абсолютная ошибка больше 0,5, в противном случае - 0. Затем эта функция вычисляет средний коэффициент ошибок. Но помните, отсечение было установлено до того, как вы определите свою функцию стоимости.
На самом деле, я думаю, что имеет больше смысла, если выбор порога определяется функцией стоимости.
источник
Ответ @SLi уже очень хорошо объясняет, что делает определенная вами функция стоимости. Тем не менее, я хотел бы добавить, что функция стоимости используется для расчета
delta
значенияcv.glm
, которое является измерением ошибки перекрестной проверки. Однако критическимdelta
является средневзвешенное значение ошибки каждого сгиба, определяемое стоимостью. Мы видим это, проверяя соответствующий бит кода:и значение, возвращаемое функцией:
источник