Несколько дней назад мой психолог-исследователь рассказал мне о своем методе выбора переменных для модели линейной регрессии. Думаю, это нехорошо, но мне нужно попросить кого-нибудь еще убедиться. Метод таков:
Посмотрите на матрицу корреляции между всеми переменными (включая зависимую переменную Y) и выберите те предикторы Xs, которые больше всего коррелируют с Y.
Он не упомянул ни одного критерия. Q: Был ли он прав?
[Я думаю, что этот метод выбора неверен из-за многих вещей, таких как теория, которая говорит, какие предикторы должны быть выбраны, или даже не учитывает переменное смещение (OVB).]
regression
correlation
model-selection
Lil'Lobster
источник
источник
Ответы:
Если по какой-то причине вы собираетесь включить в модель только одну переменную, то выбор предиктора, который имеет наибольшую корреляцию с имеет несколько преимуществ. Из возможных моделей регрессии только с одним предиктором эта модель является самой высокой с стандартизованным коэффициентом регрессии, а также (поскольку R 2 - это квадрат r в простой линейной регрессии ) с самым высоким коэффициентом детерминации .Y р2 р
Но не ясно, почему вы хотели бы ограничить свою регрессионную модель одним предиктором, если у вас есть данные, доступные для нескольких. Как упоминалось в комментариях, просто посмотреть на корреляции не получится, если ваша модель может содержать несколько переменных. Например, из этой матрицы рассеяния вы можете подумать, что предикторами для вы должны включить в свою модель, являются x 1 (корреляция 0,824) и x 2 (корреляция 0,782), но x 3 (корреляция 0,134) не является полезным предиктором.Y Икс1 Икс2 Икс3
И вот пример, который еще хуже:
источник
Вы можете запустить пошаговый регрессионный анализ и позволить программному обеспечению выбирать переменные на основе значений F. Вы также можете посмотреть на скорректированное значение R ^ 2 при каждом запуске регрессии, чтобы увидеть, добавляется ли какая-либо новая переменная, способствующая вашей модели. Ваша модель может иметь проблему мультиколлинеарности, если вы просто выбираете корреляционную матрицу и выбираете переменные с сильной корреляцией. Надеюсь это поможет!
источник