AIC регрессии гребня: степени свободы в зависимости от количества параметров

13

Я хочу рассчитать AICc модели регрессии гребня. Проблема в количестве параметров. Для линейной регрессии большинство людей предполагают, что число параметров равно количеству оценочных коэффициентов плюс сигма (дисперсия ошибки).

Когда дело доходит до регрессии гребня, я читал, что след матрицы шляп - степень свободы (df) - просто используется как число параметров в формуле AIC (например, здесь или здесь ).

Это верно? Могу ли я просто использовать df для расчета AICc? Могу ли я просто добавить +1 к df для учета дисперсии ошибок?

юлианский
источник
2
Мне нравится этот вопрос, потому что общие входные данные для AICc - это RSS, k и n, но он, как правило, не выбирает надежные модели вместо моделей с наименьшей ошибкой для одного и того же числа параметров. Если вы используете один и тот же подход подбора для моделей-кандидатов и подходите для одних и тех же данных, то выбор модели - это выбор модели. Мне нравится вопрос о том, как вы измеряете теоретико-информационное соответствие наилучшим образом с той же моделью и данными, но с использованием различных типов соответствия, таких как ошибка наименьших квадратов и потеря Хьюбера.
EngrStudent
3
@EngrStudent, просто небольшая заметка: RSS является частным случаем нормальной вероятности. Если предполагается другое (ненормальное) распределение, AIC будет содержать не RSS, а логарифмическую вероятность модели. Кроме того, типы соответствия : вы имеете в виду функции потерь, по которым оценивается модель, или функцию потерь, используемую для подгонки модели, или еще что-то еще?
Ричард Харди
1
@RichardHardy - Вы правы в отношении нормальной вероятности! На практике центральная предельная теорема переоценивается. В данном случае это означало то же самое, когда я сказал «подходящая функция», а вы сказали «функция потерь». Я думаю о наименьших квадратах в терминах первых псевдообратных и метрик ошибок. Это «последовательность обучения» артефакт в моих процессах мышления и общения.
EngrStudent
1
@EngrStudent, спасибо. Также обратите внимание, что я предложил два варианта использования функции потерь: подгонка (эмпирическая целевая функция, из которой получена оценка) и оценка (теоретическая целевая функция, которую мы хотим оптимизировать).
Ричард Харди

Ответы:

4

AIC и регрессия гребня могут быть сделаны совместимыми, когда сделаны определенные предположения. Однако не существует единого метода выбора усадки для регрессии гребня, поэтому нет общего метода применения AIC к нему. Хребетная регрессия является подмножеством тихоновской регуляризации . Есть много критериев, которые можно применять для выбора сглаживающих факторов для регуляризации Тихонова, например, см. Это . Чтобы использовать AIC в этом контексте, существует документ, в котором сделаны довольно конкретные предположения относительно того, как выполнить эту регуляризацию, выбор параметра регуляризации на основе информационной сложности для решения плохо обусловленных обратных задач . В частности, это предполагает

«В статистической структуре ... выбирая значение параметра регуляризации α и используя метод максимального штрафного правдоподобия (MPL) .... Если мы рассмотрим некоррелированный гауссов шум с дисперсией и используем штраф сложная норма, см. ссылку выше , решение MPL такое же, как и для регуляризованного решения Тихонова (1963). "σ2p(x)=

Тогда возникает вопрос: должны ли быть сделаны эти предположения? Вопрос о необходимых степенях свободы является вторичным по отношению к вопросу о том, используются ли AIC и регрессия гребня в согласованном контексте. Я хотел бы предложить прочитать ссылку для деталей. Я не избегаю вопроса, просто можно использовать множество вещей в качестве целевых объектов, например, можно использовать коэффициент сглаживания, который оптимизирует сам AIC . Итак, один хороший вопрос заслуживает другого: «Зачем беспокоиться о AIC в контексте хребта?» В некоторых контекстах регрессии гребня трудно понять, как AIC можно сделать актуальным. Так , например, гребень регрессия была применена для того , чтобы минимизировать относительное распространение ошибок в , то есть, минb[SD(b)b] гамма-распределения (GD), заданного

GD(t;a,b)=1tebt(bt)aΓ(a);t0,

согласно этой статье . В частности, эта трудность возникает потому , что в этой работе, то есть, по сути, Субъективная U NDER на Время C Urve (ППК) , который оптимизирован, а не максимального правдоподобия (ML) в благости подходит между измеренными временными выборками. Чтобы было понятно, это сделано потому, что AUC является некорректным интегралом, и, в противном случае, например, при использовании ML, подбор гамма-распределения будет недостаточно устойчивым. Таким образом, для этого конкретного приложения максимальное правдоподобие, то есть AIC, на самом деле не имеет значения. (Говорят, что AIC используется для прогнозирования, а BIC - для пригодности. Однако прогнозирование и соответствие подходят только косвенным образом для надежной оценки AUC.)[0,)[t1,tn]

Что касается ответа на вопрос , то первая ссылка в тексте вопроса гласит : «Главное отметить, что является убывающей функцией [ Sic , коэффициент сглаживания] с [ Sic , эффективное число параметры см. в приведенной ниже трассировке матрицы] в и в . " Это означает, что равно количеству параметров минус число оцененных величин, когда нет сглаживания, что также, когда регрессия такая же, как у наименьших квадратов, и уменьшается до нуля.dfλd f = p λ = 0 d f = 0 λ = d f d f d fdf=pλ=0df=0λ=dfdf поскольку коэффициент сглаживания увеличивается до . Обратите внимание, что для бесконечного сглаживания подгонка представляет собой плоскую линию независимо от того, какая функция плотности подгоняется. Наконец, точное число является функцией.df

«Можно показать, что ), где { } - собственные значения . Интересно, что та же ссылка определяет как след шляпной матрицы, см. def .dfridge=(λi/(λi+λλiXTXdf

деревенщина
источник