AIC, BIC и GCV: что лучше всего принимать решения в методах регрессии, о которых наказывают?

14

Мое общее понимание состоит в том, что AIC имеет дело с компромиссом между добротностью соответствия модели и сложностью модели.

AяСзнак равно2К-2LN(L)

= количество параметров в моделиК

= вероятностьL

Байесовский информационный критерий BIC тесно связан с AIC. AIC штрафует количество параметров менее строго, чем BIC. Я вижу, что эти два исторически используются повсеместно. Но обобщенная перекрестная проверка (GCV) является новой для меня. Как GCV может относиться к BIC или AIC? Как эти критерии, вместе или по отдельности, используются при выборе штрафного термина в панельной регрессии, такой как гребень?

Изменить: Вот пример, чтобы думать и обсуждать:

    require(lasso2)
    data(Prostate)
    require(rms)

    ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45,
           method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE)
    p <- pentrace(ridgefits, seq(0,1,by=.01))
    effective.df(ridgefits,p)
    out <- p$results.all
    par(mfrow=c(3,2))
    plot(out$df, out$aic, col = "blue", type = "l", ylab = "AIC", xlab = "df"  )
    plot(out$df, out$bic, col = "green4", type = "l", ylab = "BIC",  xlab = "df" )
    plot(out$penalty, out$df,  type = "l", col = "red", 
     xlab = expression(paste(lambda)), ylab = "df" )
    plot(out$penalty, out$aic, col = "blue", type = "l",  
      ylab = "AIC", xlab = expression(paste(lambda))  )
    plot(out$penalty, out$bic, col = "green4", type = "l", ylab = "BIC", 
      xlab= expression(paste(lambda))

require(glmnet)
y <- matrix(Prostate$lpsa, ncol = 1)
x <- as.matrix (Prostate[,- length(Prostate)])
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
plot(cv$lambda, cv$cvm, col = "red", type = "l", 
      ylab = "CVM",   xlab= expression(paste(lambda))

введите описание изображения здесь

Рам Шарма
источник

Ответы:

10

λ

Фрэнк Харрелл
источник
2
Отличная практическая интерпретация, а также имеет смысл в байесовском контексте ... «теоретическое» основанное отношение вероятности против «атеоретической» ошибки предсказания.
Shadowtalker
3
Вероятно, это поможет понять, как "эффективные степени свободы" для регуляризованного решения могут быть вычислены и использованы в AIC.
Брайан Борчерз
2
См. Код в функции rmsпакета R effective.dfи мою книгу «Стратегии регрессионного моделирования». Основная идея Роберта Грея заключается в том, что вы рассматриваете ковариационную матрицу без штрафа против ковариационной матрицы с штрафом. Сумма диагонали своего рода отношения этих двух дает вам эффективный df
Фрэнк Харрелл
@FrankHarrell: Так что, если я вас правильно понимаю - можно рассчитать несколько моделей glmnet(каждая с разным лямбда-параметром) и вычислить AIC для каждой модели, а затем выбрать лямбду, соответствующую модели с самым низким AIC? Это в основном еще один способ выбора лямбда-параметра, кроме использования перекрестной проверки. Я прав?
Corel
1
Я писал в контексте rmsпакета, где пара подходящих функций при использовании effective.dfвычисляет эффективное количество параметров, чтобы вы могли получить эффективный AIC. Это приблизительно соответствует тому, что вы получаете от перекрестной проверки с CV'ing. Посмотрите это
Фрэнк Харрелл
10

Мои собственные мысли по этому поводу не очень собраны, но вот набор моментов, которые, как мне известно, могут помочь.


Байесовская интерпретация AIC заключается в том, что это приближение с поправкой на смещение к ожидаемой логарифмической точечной прогнозируемой плотности, т.е. ошибка прогнозирования вне выборки. Эта интерпретация хорошо изложена в Gelman, Hwang и Vehtari (2013), а также кратко обсуждается в блоге Gelman . Перекрестная проверка - это другое приближение к одной и той же вещи.

Между тем, BIC является приближением к « байесовскому фактору » по конкретному априорному принципу (хорошо объяснено в Raftery, 1999 ). Это почти байесовский аналог отношения правдоподобия.

Что интересно в AIC и BIC, так это в том, что штрафная регрессия также имеет байесовскую интерпретацию, например, LASSO - это оценка MAP байесовской регрессии с независимыми априорными коэффициентами Лапласа на коэффициентах. Немного больше информации в этом предыдущем вопросе и намного больше в Kyung, Gill, Ghosh и Casella (2010) .

Это говорит мне о том, что вы могли бы получить некоторый пробег или, по крайней мере, более последовательный дизайн исследования, если думать и моделировать в байесовских терминах. Я знаю, что это немного необычно во многих приложениях, таких как многомерное машинное обучение, и также несколько отстранено от (на мой взгляд) более интерпретируемой интерпретации регуляризации с помощью геометрических функций и функций потерь. По крайней мере, я в значительной степени полагаюсь на байесовскую интерпретацию, чтобы выбирать между AIC и BIC и объяснять разницу для мирян, не ориентированных на статистику коллег / боссов и т. Д.

λ

Выбор параметра настройки путем перекрестной проверки является лишь частной реализацией иерархической системы Байеса.

shadowtalker
источник