Могут ли степени свободы быть нецелым числом?

27

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26.6

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
Haitao Du
источник
3
В общем, да, df может быть числом с плавающей запятой.
Дэвид Лейн
6
Вы, вероятно, хотите спросить о действительном числе (или не целом числе); число с плавающей запятой - это компьютерная концепция (способ аппроксимации действительных чисел), которая относится к реализации, но вы действительно спрашиваете об основополагающей математической идее (и поэтому лучше задать математический вопрос). Часто встречаются ситуации, когда (по той или иной причине не всегда хорошо) величина, которая концептуально является целым числом, тем не менее в реализации сохраняется как число с плавающей запятой. Я предлагаю «Может ли модель иметь нецелые степени свободы?» для названия.
Glen_b

Ответы:

40

kk+1

Мы обычно думаем о степенях свободы как о количестве свободных параметров, но есть ситуации, когда параметры не являются полностью свободными, и их тогда может быть трудно подсчитать. Это может произойти, например, при сглаживании / регуляризации.

Примеры локально-взвешенных методов регрессии / ядра и сглаживания сплайнов являются примерами такой ситуации - общее количество свободных параметров не может быть легко подсчитано путем добавления предикторов, поэтому необходимо более общее представление о степенях свободы.

gamy^=Aytr(A)tr(AAT)tr(2AAAT)tr(A)XA

tr(A)

iy^iyitr(A)y^y^iyi

Для моделей, подобных установленным gam, эти различные меры обычно не являются целочисленными.

(Я настоятельно рекомендую прочитать обсуждение этих ссылок по этому вопросу, хотя в некоторых ситуациях история может стать более сложной. См., Например, [4])

[1] Хасти Т. и Тибширани Р. (1990),
Обобщенные аддитивные модели,
Лондон: Чепмен и Холл.

[2] Хасти Т., Тибширани Р. и Фридман Дж. (2009),
Элементы статистического обучения: сбор данных, вывод и прогнозирование , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye, J. (1998),
«Об измерении и коррекции эффектов интеллектуального анализа данных и выбора моделей»,
журнал Американской статистической ассоциации , Vol. 93, № 441, стр. 120-131.

[4] Янсон Л., Фитиан В. и Хасти Т. (2013),
«Эффективные степени свободы: ошибочная метафора»
https://arxiv.org/abs/1312.7851

Glen_b - Восстановить Монику
источник
7
Это не относится к этому случаю, но t-критерий Уэлча для двух выборок, когда дисперсии неравны, может иметь нецелое число степеней свободы.
Майкл Р. Черник
5
Как и эпсилон-скорректированный df при повторных измерениях ANOVA.
Дэвид Лейн
2
Еще одна ссылка - statweb.stanford.edu/~tibs/ElemStatLearn/printings/… раздел 5.4.1 Степени свободы и более гладкие матрицы
Адриан
1
@ Адриан спасибо; Я размышлял, стоит ли добавлять только эту ссылку (и, в частности, упомянуть ли в разделе, указанном вами, eqn 5.16). Я пришел к выводу, что это хорошая идея, чтобы добавить его.
Glen_b