Я прочитал три основные причины стандартизации переменных, прежде чем что-то вроде Lasso
регрессии:
1) Интерпретируемость коэффициентов.
2) Возможность ранжировать важность коэффициента по относительной величине оценок коэффициента после усадки.
3) Нет необходимости перехватывать.
Но меня интересует самый важный момент. Есть ли у нас основания полагать, что стандартизация улучшит обобщение модели вне выборки? Также мне все равно, если мне не нужен перехват в моей модели; добавление одного не повредит мне.
Ответы:
Регресс Лассо накладывает ограничения на размер коэффициентов, связанных с каждой переменной. Однако это значение будет зависеть от величины каждой переменной. Поэтому необходимо центрировать и уменьшать или стандартизировать переменные.
Результат центрирования переменных означает, что перехвата больше нет. Кстати, это относится и к регрессии гребня.
Еще одним хорошим объяснением является этот пост: необходимость центрирования и стандартизации данных в регрессии
источник
Параметр штрафа L1 является суммой абсолютных бета-членов. Если все переменные имеют разную размерность, то этот термин действительно не аддитивен, хотя математически нет никакой ошибки.
Однако я не вижу фиктивных / категориальных переменных, страдающих от этой проблемы, и думаю, что их не нужно стандартизировать. их стандартизация может просто уменьшить интерпретируемость переменных
источник