Результаты регрессии хребта отличаются при использовании lm.ridge и glmnet

11

Я применил некоторые данные, чтобы найти лучшее решение переменных регрессионной модели с использованием регрессии гребня в R. Я использовал lm.ridgeи glmnet(когда alpha=0), но результаты сильно отличаются, особенно когда lambda=0. Предполагается, что оба оценщика параметров имеют одинаковые значения. Итак, в чем здесь проблема? наилучшие пожелания

Закария аль-Джаммал
источник

Ответы:

14

glmnet стандартизирует переменную y и использует среднеквадратические ошибки вместо суммы квадратов ошибок. Поэтому вам необходимо внести соответствующие корректировки, чтобы соответствовать их выводам.

library(ElemStatLearn)
library(glmnet)
library(MASS)

dof2lambda <- function(d, dof) {
    obj <- function(lam, dof) (dof - sum(d ^ 2 / (d ^ 2 + lam))) ^ 2
    sapply(dof, function(x) optimize(obj, c(0, 1e4), x)$minimum)
}

lambda2dof <- function(d, lam) {
    obj <- function(dof, lam) (dof - sum(d ^ 2 / (d ^ 2 + lam))) ^ 2
    sapply(lam, function(x) optimize(obj, c(0, length(d)), x)$minimum)
}

dat   <- prostate
train <- subset(dat,  train, select = -train)
test  <- subset(dat, !train, select = -train)

train.x <- as.matrix(scale(subset(train, select = -lpsa)))
train.y <- as.matrix(scale(train$lpsa))

d   <- svd(train.x)$d
dof <- seq(1, 8, 0.1)
lam <- dof2lambda(d, dof)

ridge1 <- lm.ridge(train.y ~ train.x, lambda = lam)
ridge2 <- glmnet(train.x, train.y, alpha = 0, lambda = lam / nrow(train.x))

matplot(dof, t(ridge1$coef), type = 'l')
matplot(lambda2dof(d, ridge2$lambda * nrow(train.x)), t(ridge2$beta), type = 'l')

источник
Привет. Какой пакет R вы посоветуете использовать для Ridge Regression? glmnet, bigRR, Mass, другие? Кто-нибудь из них способен справиться с повторными измерениями (случайными эффектами)?
Скан
У меня есть некоторое несоответствие между выводом glmnet и MASS lm.ridge, которое не может быть объяснено проблемами масштабирования. Однако lm.ridge дал мне результат, который совпадает с расчетом руки. Если у меня будет время в будущем, я выложу полный пример. Прямо сейчас я пойду с массой. Кроме того, сам glmnet предупреждает, что результаты зависят от того, как вы устанавливаете лямбда-параметры, это еще один удар по glmnet.
PA6OTA