Необходимо ли масштабировать целевое значение в дополнение к функциям масштабирования для регрессионного анализа?

52

Я строю регрессионные модели. В качестве шага предварительной обработки я масштабирую значения моих объектов так, чтобы они имели среднее значение 0 и стандартное отклонение 1. Необходимо ли также нормализовать целевые значения?

regression machine-learning user2806363
источник

50

Давайте сначала проанализируем, почему выполняется масштабирование объектов. Функция масштабирования улучшает сходимость алгоритмов наискорейшего спуска, которые не обладают свойством масштабной инвариантности.

В примерах обучения стохастического градиентного спуска итеративно сообщайте обновления веса следующим образом:

w_{t + 1} = w_{t} - γ \nabla_{w} ℓ (f_{w} (x), y)

$w_{t+1} = w_t - \gamma\nabla_w \ell(f_w(x),y)$

Где - веса, - размер шага, - градиент относительно весов, - функция потерь, - функция, параметризованная , - обучающий пример, а - ответ / метка. $w$ $\gamma$ $\nabla_w$ $\ell$ $f_w$ $w$ $x$ $y$

Сравните следующие выпуклые функции, представляющие правильное масштабирование и неправильное масштабирование.

Масштабирование функций

Шаг за одно обновление веса size даст намного лучшее снижение ошибки в правильно масштабированном случае, чем неправильно масштабированном случае. Ниже показано направление длины . $\gamma$ $\nabla_w \ell(f_w(x),y)$ $\gamma$

Обновление градиента

Нормализация вывода не повлияет на форму , поэтому обычно это не требуется. $f$

Единственная ситуация, которую я могу себе представить, - это масштабирование выходных данных, если ваша переменная отклика очень велика и / или вы используете переменные f32 (что характерно для линейной алгебры GPU). В этом случае возможно получить переполнение с плавающей запятой элемента весов. Симптом - это либо значение Inf, либо оно переходит в другое предельное представление.

Джессика Мик
источник

Но если мы не масштабируем входные данные и применяем градиентный спуск, чтобы найти для тета что-то вроде y = theta0 + theta1 * x1 + theta2 * x2, если мы обновляем значения X1 и X2 (масштабируя их), сохраняя Y (ожидаемый результат) то же самое, не будут ли результирующие прогнозы для theta1, theta2 неверными, когда мы применим их к исходному уравнению?

Прашант

14

Вообще, это не обязательно. Масштабирование входных данных помогает избежать ситуации, когда один или несколько признаков доминируют над другими по величине, в результате модель почти не учитывает вклад переменных меньшего масштаба, даже если они сильные. Но если вы масштабируете цель, ваша средняя квадратическая ошибка автоматически масштабируется. MSE> 1 автоматически означает, что вы делаете хуже, чем постоянный (наивный) прогноз.

inzl
источник

7

Нет, линейные преобразования ответа никогда не нужны. Однако они могут быть полезны для интерпретации вашей модели. Например, если ваш ответ указан в метрах, но, как правило, очень мал, может быть полезно изменить масштаб, например, до миллиметров. Также обратите внимание, что центрирование и / или масштабирование входов могут быть полезны по той же причине. Например, вы можете приблизительно интерпретировать коэффициент как влияние на ответ на единицу измерения в предикторе, когда все остальные предикторы установлены в 0 . Но 0 часто не будет действительным или интересным значением для этих переменных. Центрирование входных данных позволяет интерпретировать коэффициент как эффект на единицу изменения, когда другие предикторы принимают свои средние значения.

Другие преобразования (например, log или square root) могут быть полезны, если ответ не является линейным в предикторах в исходном масштабе. Если это так, вы можете прочитать об обобщенных линейных моделях, чтобы увидеть, подходят ли они для вас.

AlexK
источник

1

Это действительно влияет на градиентный спуск в плохом пути. Проверьте формулу для градиентного спуска:

x_{n + 1} = x_{n} - γ Δ F (x_{n})

$x_{n+1} = x_{n} - \gamma\Delta F(x_n)$

допустим, что - это функция, которая в 1000 раз больше, чем $x_2$ $x_1$

для имеем . Оптимальным способом достижения (0,0), который является глобальным оптимумом, является перемещение по диагонали, но если одна из особенностей доминирует над другой с точки зрения масштаба, что не произойдет. $F(\vec{x})=\vec{x}^2$ $\Delta F(\vec{x})=2*\vec{x}$

Для иллюстрации: если вы выполняете преобразование , одинаковую скорость обучения для обеих координат и рассчитайте градиент, тогдаФункциональная форма та же, но скорость обучения для второй координаты должна быть скорректирована до 1/1000 от скорости для первой координаты, чтобы соответствовать ей. Если не координата, два будут доминировать, и вектор будет направлен больше в этом направлении. $\vec{z}= (x_1,1000*x_1)$ $\gamma$

\vec{z_{n + 1}} = \vec{z_{n}} - γ Δ F (z_{1}, z_{2}) .

$\vec{z_{n+1}} = \vec{z_{n}} - \gamma\Delta F(z_1,z_2) .$

Δ

$\Delta$

В результате он смещает дельту, чтобы указывать только в этом направлении, и замедляет схождение.

drSPacy_
источник

0

Да , вам нужно масштабировать целевую переменную. Я процитирую эту ссылку :

Целевая переменная с большим разбросом значений, в свою очередь, может привести к большим значениям градиента ошибки, приводящим к резкому изменению значений веса, что делает процесс обучения нестабильным.

В справочном материале также приведена демонстрация кода, где веса моделей взорвались во время обучения с учетом очень больших ошибок и, в свою очередь, также были взорваны градиенты ошибок, рассчитанные для обновлений веса. Короче говоря, если вы не масштабируете данные и у вас очень большие значения, обязательно используйте очень маленькие значения скорости обучения. Об этом также упоминал @drSpacy.

Фернандо Виттманн
источник

Необходимо ли масштабировать целевое значение в дополнение к функциям масштабирования для регрессионного анализа?

Ответы: