Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?
> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))
Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
Min 1Q Median 3Q Max
-4.1470 -1.6217 -0.8971 1.2445 6.0516
(Dispersion Parameter for gaussian family taken to be 6.6717)
Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294
Number of Local Scoring Iterations: 2
Anova for Parametric Effects
Df Sum Sq Mean Sq F value Pr(>F)
lo(wt) 1.0 847.73 847.73 127.06 1.239e-11 ***
Residuals 26.6 177.47 6.67
r
degrees-of-freedom
gam
machine-learning
pca
lasso
probability
self-study
bootstrap
expected-value
regression
machine-learning
linear-model
probability
simulation
random-generation
machine-learning
distributions
svm
libsvm
classification
pca
multivariate-analysis
feature-selection
archaeology
r
regression
dataset
simulation
r
regression
time-series
forecasting
predictive-models
r
mean
sem
lavaan
machine-learning
regularization
regression
conv-neural-network
convolution
classification
deep-learning
conv-neural-network
regression
categorical-data
econometrics
r
confirmatory-factor
scale-invariance
self-study
unbiased-estimator
mse
regression
residuals
sampling
random-variable
sample
probability
random-variable
convergence
r
survival
weibull
references
autocorrelation
hypothesis-testing
distributions
correlation
regression
statistical-significance
regression-coefficients
univariate
categorical-data
chi-squared
regression
machine-learning
multiple-regression
categorical-data
linear-model
pca
factor-analysis
factor-rotation
classification
scikit-learn
logistic
p-value
regression
panel-data
multilevel-analysis
variance
bootstrap
bias
probability
r
distributions
interquartile
time-series
hypothesis-testing
normal-distribution
normality-assumption
kurtosis
arima
panel-data
stata
clustered-standard-errors
machine-learning
optimization
lasso
multivariate-analysis
ancova
machine-learning
cross-validation
Haitao Du
источник
источник
Ответы:
Мы обычно думаем о степенях свободы как о количестве свободных параметров, но есть ситуации, когда параметры не являются полностью свободными, и их тогда может быть трудно подсчитать. Это может произойти, например, при сглаживании / регуляризации.
Примеры локально-взвешенных методов регрессии / ядра и сглаживания сплайнов являются примерами такой ситуации - общее количество свободных параметров не может быть легко подсчитано путем добавления предикторов, поэтому необходимо более общее представление о степенях свободы.
gam
Для моделей, подобных установленным
gam
, эти различные меры обычно не являются целочисленными.(Я настоятельно рекомендую прочитать обсуждение этих ссылок по этому вопросу, хотя в некоторых ситуациях история может стать более сложной. См., Например, [4])
[1] Хасти Т. и Тибширани Р. (1990),
Обобщенные аддитивные модели,
Лондон: Чепмен и Холл.
[2] Хасти Т., Тибширани Р. и Фридман Дж. (2009),
Элементы статистического обучения: сбор данных, вывод и прогнозирование , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/
[3] Ye, J. (1998),
«Об измерении и коррекции эффектов интеллектуального анализа данных и выбора моделей»,
журнал Американской статистической ассоциации , Vol. 93, № 441, стр. 120-131.
[4] Янсон Л., Фитиан В. и Хасти Т. (2013),
«Эффективные степени свободы: ошибочная метафора»
https://arxiv.org/abs/1312.7851
источник