У меня есть 2 простых вопроса о линейной регрессии:
- Когда рекомендуется стандартизировать объясняющие переменные?
- Как только можно выполнить оценку с использованием стандартизированных значений, как можно прогнозировать с помощью новых значений (как следует стандартизировать новые значения)?
Некоторые ссылки будут полезны.
Ответы:
Хотя терминология спорный вопрос, я предпочитаю называть «объяснительные» переменные, «прогнозирующих» переменных.
Когда стандартизировать предикторы:
Я также думаю, что использование стандартизированных переменных может отвлечь внимание от того факта, что мы не думали о том, как сделать метрику переменной более значимой для читателя.
Эндрю Гельман может сказать кое-что по этой теме. См. Его страницу по стандартизации, например, и Gelman (2008, Stats Med, FREE PDF) в частности.
Прогноз на основе стандартизации:
источник
Позвольте мне ответить коротким ответом, тест может совпадать с превосходным ответом, написанным ранее.
Всегда стандартизировать, что позволяет лучше интерпретировать регрессию, особенно коэффициенты регрессии.
Для новых данных, которые не стандартизированы, я рекомендую вам сохранить значения, которые вы использовали для каждой стандартизируемой переменной, такие как максимум и минимум, а затем выполнить то же преобразование, которое вы делали в наборе данных отверстий ранее, но только для этого один экземпляр.
источник