Zou et al. «О« степенях свободы »Лассо» (2007) показывают, что число ненулевых коэффициентов является объективной и непротиворечивой оценкой степеней свободы Лассо.
Это кажется немного нелогичным для меня.
- Предположим, у нас есть модель регрессии (где переменные имеют среднее значение ноль)
- Предположим, что неограниченная оценка OLS для равна . Это может примерно совпадать с оценкой LASSO для очень низкой интенсивности штрафа.& beta ; O L S = 0,5 & beta ;
- Предположим далее, что оценка LASSO для конкретной интенсивности штрафа равна . Например, может быть «оптимальным» для набора данных, найденного с помощью перекрестной проверки. * β L S S O , λ * = 0,4 λ * λ
- Если я правильно понимаю, в обоих случаях степень свободы равна 1, так как оба раза есть один ненулевой коэффициент регрессии.
Вопрос:
- Почему степени свободы в обоих случаях одинаковы, хотя предполагает меньшую "свободу" подгонки, чем ? β OLS=0,5
Ссылки:
- Зоу, Хуэй, Тревор Хасти и Роберт Тибширани. «О« степенях свободы »лассо». Летопись статистики 35,5 (2007): 2173-2192.
regression
lasso
degrees-of-freedom
shrinkage
Ричард Харди
источник
источник
Ответы:
Предположим, нам дан набор из -мерных наблюдений: , . Предположим, что модель имеет вид: где , и обозначающие внутреннее произведение. Пусть будет оценкой с использованием метода подгонки (либо OLS, либо LASSO для наших целей). Формула для степеней свободы, приведенная в статье (уравнение 1.2):n p xi∈Rp i=1,…,n
Изучив эту формулу, мы можем предположить, что в соответствии с вашей интуицией истинный DOF для LASSO действительно будет меньше, чем истинный DOF для OLS; коэффициент усадки, вызванный LASSO, должен уменьшать ковариации.
Теперь, чтобы ответить на ваш вопрос, причина того, что DOF для LASSO такой же, как DOF для OLS в вашем примере, заключается просто в том, что вы имеете дело с оценками (хотя и несмещенными), полученными из определенного набора данных, взятого из модели. , из истинных значений DOF. Для любого конкретного набора данных такая оценка не будет равна истинному значению (особенно потому, что оценка должна быть целым числом, в то время как истинное значение вообще является действительным числом).
Однако, когда такие оценки усредняются по многим наборам данных, отобранным из модели, по беспристрастности и закону больших чисел такое среднее будет сходиться к истинному DOF. В случае LASSO некоторые из этих наборов данных приведут к оценке, в которой коэффициент фактически равен 0 (хотя такие наборы данных могут быть редкими, если мала). В случае OLS оценка DOF - это всегда число коэффициентов, а не количество ненулевых коэффициентов, и поэтому среднее значение для случая OLS не будет содержать эти нули. Это показывает, как отличаются оценки и как средняя оценка для LASSO DOF может сходиться к чему-то меньшему, чем средняя оценка для OLS DOF.λ
источник