Путаница, связанная с нормализацией данных

9

Я пытаюсь выучить модель линейной регрессии. Однако у меня есть некоторая путаница, связанная с нормализацией данных. Я нормализовал особенности / предикторы к нулевому среднему значению и единице дисперсии. Нужно ли делать то же самое для цели. Если так, то почему?

user34790
источник
1
Почему вы нормализовали функции / предикторы?
Питер Флом
4
Кстати, я думаю, что «стандартизация» является лучшим термином для этого.
Scortchi - Восстановить Монику

Ответы:

6

Нормализация цели в линейной регрессии не имеет значения. В линейной регрессии, ваш подходят будет иметь вид у я = а 0 + х я . Когда вы прогнозируете x i по центру, постоянный член a 0 всегда будет средним значением y i . Так что если вы центрирования у я перед запуском регрессию, вы просто получите в 0 = 0 , но все ваши остальные коэффициенты остаются неизменными.

y^i=a0+axi.
xia0yiyia0=0

(Это, как говорится, нормализация предикторов - как вы делаете в настоящее время - это хорошая идея.)

Стефан Вейджер
источник
1
Почему нормализация предсказателей хорошая идея?
Scortchi - Восстановить Монику
a0
2
@ Scortchi Нормализация предикторов не является необходимой, но может упростить интерпретацию коэффициентов из регрессии: после нормализации большие коэффициенты соответствуют важным предикторам. Также без нормализации коэффициенты членов взаимодействия могут серьезно вводить в заблуждение. При этом нормализация не повлияет на прогнозы, которые вы получите от своей модели, поэтому нормализация имеет значение, только если вы намерены интерпретировать коэффициенты в регрессии.
Стефан Вейджер
1
@ user34790 Математика разработана на pmean.com/10/LeastSquares.html
Стефан