Я пытаюсь понять перекрестную проверку для порядковой логистической регрессии. Цель игры - проверить модель, использованную в анализе ...
Сначала я создаю набор данных игрушек:
set.seed(1)
N <- 10000
# predictors
x1 <- runif(N)
x2 <- runif(N)
x3 <- runif(N)
# coeffs in the model
a <- c(-2,-1)
x <- -x1+2*x2+x3
# P( y ≤ i ) is given by logit^{-1} ( a[i]+x )
p <- outer(a,x, function(a,x) 1/(1+exp(-a-x)) )
# computing the probabilities of each category
q <- 1 - p[2,]
p[2,] <- p[2,] - p[1,];
p <- rbind(p,q);
# outcome
y <- ordered( apply( p, 2, function(p) which(rmultinom(1,1,p)>0) ) )
Теперь я подгоняю модель, которую он использует lrm
в упаковке rms
.
require("rms")
fit <- lrm(y~x1+x2+x3, x=TRUE,y=TRUE)
> fit
Logistic Regression Model
lrm(formula = y ~ x1 + x2 + x3, x = TRUE, y = TRUE)
Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 10000 LR chi2 1165.46 R2 0.126 C 0.664
1 2837 d.f. 3 g 0.779 Dxy 0.328
2 2126 Pr(> chi2) <0.0001 gr 2.178 gamma 0.329
3 5037 gp 0.147 tau-a 0.203
max |deriv| 4e-10 Brier 0.187
Coef S.E. Wald Z Pr(>|Z|)
y>=2 2.1048 0.0656 32.06 <0.0001
y>=3 1.0997 0.0630 17.45 <0.0001
x1 0.8157 0.0675 12.09 <0.0001
x2 -1.9790 0.0701 -28.21 <0.0001
x3 -1.0095 0.0687 -14.68 <0.0001
Я понимаю вторую часть результата: коэффициенты, которые я положил в модель, здесь (это почти идеально N = 100000
). Знак поменялся местами, потому что в моей модели я использовал коэффициенты, чтобы вычислить шансы быть , и , здесь другой путь, я думаю, что там не так много проблем.
Однако я не понимаю дискриминацию и ранговую дискриминацию . Вы можете помочь мне?! Некоторые указатели?
Все становится хуже, когда мы переходим к перекрестной проверке ...
> validate(fit, method="cross")
index.orig training test optimism index.corrected n
Dxy 0.3278 0.3278 0.3290 -0.0012 0.3291 40
R2 0.1260 0.1260 0.1313 -0.0053 0.1313 40
Intercept 0.0000 0.0000 -0.0072 0.0072 -0.0072 40
Slope 1.0000 1.0000 1.0201 -0.0201 1.0201 40
Emax 0.0000 0.0000 0.0056 0.0056 0.0056 40
D 0.1164 0.1165 0.1186 -0.0021 0.1186 40
U -0.0002 -0.0002 -0.8323 0.8321 -0.8323 40
Q 0.1166 0.1167 0.9509 -0.8342 0.9509 40
B 0.1865 0.1865 0.1867 -0.0001 0.1867 40
g 0.7786 0.7786 0.7928 -0.0142 0.7928 40
gp 0.1472 0.1472 0.1478 -0.0007 0.1478 40
Mmffff? Что это? Как мне это интерпретировать? Страница man дает мало объяснений, у меня нет доступа к этой статье ... и я чувствую себя разбитым океаном сложности. Пожалуйста помоги!
Design
пакет, который теперь замененrms
и используется таким же образом, за исключением того, как вы получаете графики частичного эффекта и последний шаг построения номограмм - см. Biostat.mc.vanderbilt.edu/Rrms . Для гугл твой друг. Я получил несколько хитов. Это выглядит хорошо: stata-journal.com/sjpdf.html?articlenum=st0007На ваш первый вопрос: это разные измерения производительности модели. Вы хотите, чтобы некоторые из них были большими, другие - маленькими. На самом деле они как-то связаны, поэтому предлагаем вам сосредоточиться на одном или двух
На ваш второй вопрос: то, что вы имеете в своем первом выводе R, - это ваша модель на тренировочном образце. Когда вы выполняете проверку путем перекрестной проверки, вы получаете эти измерения для нескольких тестовых образцов и их среднее значение. Это даст вам более реалистичную оценку работы вашей модели.
НТН
источник