Необходимость центрирования и стандартизации данных в регрессии

16

Рассмотрим линейную регрессию с некоторой регуляризацией: например, найдите который минимизируетИкс||Axb||2+λ||x||1

Обычно столбцы A стандартизированы, чтобы иметь нулевое среднее и единичную норму, тогда как центрируется, чтобы иметь нулевое среднее. Я хочу убедиться в правильности моего понимания причины стандартизации и центрирования.b

Обнуляя значения столбцов и , мы больше не нуждаемся в члене-перехватчике. В противном случае целью была бы . Делая нормы столбцов A равными 1, мы исключаем возможность случая, когда только потому, что один столбец A имеет очень высокую норму, он получает низкий коэффициент по , что может привести к неправильному выводу, что этот столбец А не "объясняет" хорошо.Ab||Axx01b||2+λ||x||1xИкс

Это рассуждение не совсем строго, но интуитивно, это правильный способ мышления?

RK2
источник

Ответы:

14

Вы правы, обнуляя средние значения столбцов и b .Ab

Однако, что касается корректировки норм столбцов , подумайте, что произойдет, если вы начали с нормированного A , и все элементы x имели примерно одинаковую величину. Затем умножим один столбец, скажем, на 10 - 6 . Соответствующий элемент x в нерегулярной регрессии будет увеличен в 10 6 раз . Посмотрите, что будет с термином регуляризации? Для всех практических целей регуляризация будет применяться только к этому одному коэффициенту. AAx106x106

AxAxAAxAx

AxAxAx

jbowman
источник
$x$ does not ''explain'' $A$ wellx does not ''explain'' $A$ at allAx
xβAXbyxA