У меня есть набор данных, содержащий 365 наблюдений трех переменных, а именно pm
, temp
и rain
. Теперь я хочу проверить поведение pm
в ответ на изменения в двух других переменных. Мои переменные:
pm10
= Ответ (зависимый)temp
= предиктор (независимый)rain
= предиктор (независимый)
Ниже приведена корреляционная матрица для моих данных:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Проблема в том, что когда я изучал построение регрессионных моделей, было написано, что аддитивный метод должен начинаться с переменной, которая наиболее тесно связана с переменной отклика. В моем наборе данных rain
сильно коррелирует с pm
(по сравнению с temp
), но в то же время это фиктивная переменная (дождь = 1, без дождя = 0), так что я теперь понимаю, с чего мне начать. Я приложил два изображения с вопросом: первое представляет собой диаграмму рассеяния данных, а второе изображение представляет собой диаграмму рассеяния pm10
против rain
, я также не могу интерпретировать диаграмму рассеяния pm10
против rain
. Может ли кто-нибудь помочь мне, как начать?
источник
Ответы:
Многие люди считают, что вам следует использовать некоторую стратегию, например, начинать с наиболее тесно связанной переменной, а затем добавлять дополнительные переменные по очереди, пока одна из них не станет существенной. Тем не менее, нет логики, которая заставляет этот подход. Более того, это своего рода «жадная» стратегия выбора / поиска переменных (см. Мой ответ здесь: Алгоритмы автоматического выбора модели ). Вам не нужно этого делать , и действительно, вы не должны. Если вы хотите знать , отношения между
pm
иtemp
иrain
, просто установите модель множественной регрессии со всеми тремя переменными. Вам все еще нужно будет оценить модель, чтобы определить, является ли она разумной, и предположения выполнены, но это все. Если вы хотите проверить некоторые априорные гипотезы, вы можете сделать это с помощью модели. Если вы хотите оценить точность прогнозирования модели вне выборки, вы можете сделать это с помощью перекрестной проверки.Вам также не нужно беспокоиться о мультиколлинеарности. Корреляция между
temp
иrain
указана как0.044
в вашей матрице корреляции. Это очень низкая корреляция и не должно вызывать проблем.источник
Хотя это не относится непосредственно к вашему уже собранному набору данных, еще одна вещь, которую вы могли бы попробовать в следующий раз, когда вы собираете такие данные, это избежать записи «дождя» в двоичном виде. Ваши данные, вероятно, были бы более информативными, если бы вы вместо этого измерили интенсивность дождя (см / час), которая давала бы вам переменную, распределенную непрерывно (с точностью до вашей точности измерений) от 0 ... max_rainfall.
Это позволит вам соотнести не только «идет ли дождь» с другими переменными, но также и «сколько идет дождь».
источник