Вопрос в одном предложении: знает ли кто-нибудь, как определить вес хорошего класса для случайного леса?
Пояснение: я играю с несбалансированными наборами данных. Я хочу использовать этот R
пакет randomForest
, чтобы обучить модель очень искаженному набору данных, используя только небольшие положительные примеры и множество отрицательных примеров. Я знаю, что есть и другие методы, и в конце я буду их использовать, но по техническим причинам создание случайного леса является промежуточным этапом. Поэтому я поигрался с параметром classwt
. Я устанавливаю очень искусственный набор данных из 5000 негативных примеров на диске с радиусом 2, а затем я пробую 100 позитивных примеров на диске с радиусом 1. Я подозреваю, что
1) без взвешивания классов модель становится «вырожденной», т. Е. FALSE
Везде предсказываемой .
2) с весом справедливого класса я буду видеть «зеленую точку» в середине, то есть он будет предсказывать диск с радиусом 1, как TRUE
будто есть отрицательные примеры.
Вот как выглядят данные:
Это то , что происходит без взвешивания: (звонок: randomForest(x = train[, .(x,y)],y = as.factor(train$z),ntree = 50)
)
Для проверки я также попытался выяснить, что происходит, когда я жестко балансирую набор данных путем понижающей дискретизации отрицательного класса, чтобы снова соотношение составляло 1: 1. Это дает мне ожидаемый результат:
Однако, когда я вычисляю модель с весами классов «FALSE» = 1, «TRUE» = 50 (это справедливый вес, поскольку негативов в 50 раз больше, чем позитивов), тогда я получаю следующее:
Только когда я устанавливаю весовые коэффициенты на какое-то странное значение, например, «FALSE» = 0,05 и «TRUE» = 500000, я получаю ощутимые результаты:
И это довольно нестабильно, то есть изменение веса «ЛОЖЬ» на 0,01 делает модель снова вырожденной (то есть она предсказывает TRUE
везде).
Вопрос: Кто-нибудь знает, как определить вес хорошего класса для случайного леса?
Код R:
library(plot3D)
library(data.table)
library(randomForest)
set.seed(1234)
amountPos = 100
amountNeg = 5000
# positives
r = runif(amountPos, 0, 1)
phi = runif(amountPos, 0, 2*pi)
x = r*cos(phi)
y = r*sin(phi)
z = rep(T, length(x))
pos = data.table(x = x, y = y, z = z)
# negatives
r = runif(amountNeg, 0, 2)
phi = runif(amountNeg, 0, 2*pi)
x = r*cos(phi)
y = r*sin(phi)
z = rep(F, length(x))
neg = data.table(x = x, y = y, z = z)
train = rbind(pos, neg)
# draw train set, verify that everything looks ok
plot(train[z == F]$x, train[z == F]$y, col="red")
points(train[z == T]$x, train[z == T]$y, col="green")
# looks ok to me :-)
Color.interpolateColor = function(fromColor, toColor, amountColors = 50) {
from_rgb = col2rgb(fromColor)
to_rgb = col2rgb(toColor)
from_r = from_rgb[1,1]
from_g = from_rgb[2,1]
from_b = from_rgb[3,1]
to_r = to_rgb[1,1]
to_g = to_rgb[2,1]
to_b = to_rgb[3,1]
r = seq(from_r, to_r, length.out = amountColors)
g = seq(from_g, to_g, length.out = amountColors)
b = seq(from_b, to_b, length.out = amountColors)
return(rgb(r, g, b, maxColorValue = 255))
}
DataTable.crossJoin = function(X,Y) {
stopifnot(is.data.table(X),is.data.table(Y))
k = NULL
X = X[, c(k=1, .SD)]
setkey(X, k)
Y = Y[, c(k=1, .SD)]
setkey(Y, k)
res = Y[X, allow.cartesian=TRUE][, k := NULL]
X = X[, k := NULL]
Y = Y[, k := NULL]
return(res)
}
drawPredictionAreaSimple = function(model) {
widthOfSquares = 0.1
from = -2
to = 2
xTable = data.table(x = seq(from=from+widthOfSquares/2,to=to-widthOfSquares/2,by = widthOfSquares))
yTable = data.table(y = seq(from=from+widthOfSquares/2,to=to-widthOfSquares/2,by = widthOfSquares))
predictionTable = DataTable.crossJoin(xTable, yTable)
pred = predict(model, predictionTable)
res = rep(NA, length(pred))
res[pred == "FALSE"] = 0
res[pred == "TRUE"] = 1
pred = res
predictionTable = predictionTable[, PREDICTION := pred]
#predictionTable = predictionTable[y == -1 & x == -1, PREDICTION := 0.99]
col = Color.interpolateColor("red", "green")
input = matrix(c(predictionTable$x, predictionTable$y), nrow = 2, byrow = T)
m = daply(predictionTable, .(x, y), function(x) x$PREDICTION)
image2D(z = m, x = sort(unique(predictionTable$x)), y = sort(unique(predictionTable$y)), col = col, zlim = c(0,1))
}
rfModel = randomForest(x = train[, .(x,y)],y = as.factor(train$z),ntree = 50)
rfModelBalanced = randomForest(x = train[, .(x,y)],y = as.factor(train$z),ntree = 50, classwt = c("FALSE" = 1, "TRUE" = 50))
rfModelBalancedWeird = randomForest(x = train[, .(x,y)],y = as.factor(train$z),ntree = 50, classwt = c("FALSE" = 0.05, "TRUE" = 500000))
drawPredictionAreaSimple(rfModel)
title("unbalanced")
drawPredictionAreaSimple(rfModelBalanced)
title("balanced with weights")
pos = train[z == T]
neg = train[z == F]
neg = neg[sample.int(neg[, .N], size = 100, replace = FALSE)]
trainSampled = rbind(pos, neg)
rfModelBalancedSampling = randomForest(x = trainSampled[, .(x,y)],y = as.factor(trainSampled$z),ntree = 50)
drawPredictionAreaSimple(rfModelBalancedSampling)
title("balanced with sampling")
drawPredictionAreaSimple(rfModelBalancedWeird)
title("balanced with weird weights")
источник
Ответы:
Не используйте жесткое ограничение для классификации жесткого членства и не используйте KPI, которые зависят от такого жесткого прогноза членства. Вместо этого работайте с вероятностным прогнозом, используя
predict(..., type="prob")
и оценивая их, используя правильные правила оценки .Эта ранняя ветка должна быть полезной: почему точность не является наилучшей мерой для оценки моделей классификации? Неудивительно, что я считаю, что мой ответ был бы особенно полезен (извините за бесстыдство), как и мой предыдущий ответ .
источник