Для LASSO (и других процедур выбора модели) важно изменить масштаб предикторов. Общая рекомендация я следую просто использовать 0, 1 среднее стандартное отклонение нормализации для непрерывных переменных. Но что тут делать с чайниками?
Например, некоторые прикладные примеры из той же (отличной) летней школы, которую я связал с масштабированием непрерывных переменных, должны быть между 0 и 1 (хотя и не слишком хорошими для выбросов), вероятно, чтобы быть сопоставимыми с манекенами. Но даже это не гарантирует, что коэффициенты должны быть одинакового порядка и, следовательно, наказываться аналогичным образом, что является основной причиной для масштабирования, нет?
Ответы:
По словам Тибширани ( «Метод Лассо для изменчивого выбора в модели Кокса», Статистика в медицине, т. 16, 385–395 (1997) ), который буквально написал книгу о методах регуляризации, вы должны стандартизировать манекены. Тем не менее, вы теряете прямую интерпретацию ваших коэффициентов. Если вы этого не сделаете, ваши переменные не находятся на ровном игровом поле. По сути, вы склоняете чашу весов в пользу ваших непрерывных переменных (скорее всего). Итак, если ваша основная цель - выбор модели, то это вопиющая ошибка. Однако, если вас больше интересует интерпретация, возможно, это не лучшая идея.
Рекомендация на странице 394:
источник
Блог Эндрю Гельмана, « Когда нужно стандартизировать регрессионные данные, а когда оставить их в покое» , также стоит посмотреть. Эта часть, в частности, актуальна:
источник
x -> x / 2
Это скорее комментарий, но слишком длинный. Одним из наиболее часто используемых программ для лассо (и друзей) является R's
glmnet
. Со страницы справки, напечатанной?glmnet
:источник