Как начать строить регрессионную модель, когда наиболее сильно ассоциированный предиктор является двоичным

11

У меня есть набор данных, содержащий 365 наблюдений трех переменных, а именно pm, tempи rain. Теперь я хочу проверить поведение pmв ответ на изменения в двух других переменных. Мои переменные:

  • pm10 = Ответ (зависимый)
  • temp = предиктор (независимый)
  • rain = предиктор (независимый)

Ниже приведена корреляционная матрица для моих данных:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

Проблема в том, что когда я изучал построение регрессионных моделей, было написано, что аддитивный метод должен начинаться с переменной, которая наиболее тесно связана с переменной отклика. В моем наборе данных rainсильно коррелирует с pm(по сравнению с temp), но в то же время это фиктивная переменная (дождь = 1, без дождя = 0), так что я теперь понимаю, с чего мне начать. Я приложил два изображения с вопросом: первое представляет собой диаграмму рассеяния данных, а второе изображение представляет собой диаграмму рассеяния pm10против rain, я также не могу интерпретировать диаграмму рассеяния pm10против rain. Может ли кто-нибудь помочь мне, как начать?

это точечная диаграмма моих данных

точечный график pm10 против дождя

Сайед Асиф Али Шах
источник
3
Это вполне жизнеспособный вопрос, ИМО, даже если он исходит из недоразумения.
gung - Восстановить Монику
С регрессией следует помнить одну вещь : предполагается, что зависимая переменная является случайной переменной, в то время как предикторы предполагаются фиксированными контролируемыми экспериментом переменными. (Таким образом, будьте осторожны, когда вы поворачиваете что-то на голову) Кажется, что в вашей матрице нет сильной положительной или отрицательной корреляции, поскольку ни одна из недиагональных ? x i 1 , x i 2 , , x i p | r j k | > 0,8YяИкся1,Икся2,...,Иксяп|рJК|>0.8
wrktsj

Ответы:

17

Многие люди считают, что вам следует использовать некоторую стратегию, например, начинать с наиболее тесно связанной переменной, а затем добавлять дополнительные переменные по очереди, пока одна из них не станет существенной. Тем не менее, нет логики, которая заставляет этот подход. Более того, это своего рода «жадная» стратегия выбора / поиска переменных (см. Мой ответ здесь: Алгоритмы автоматического выбора модели ). Вам не нужно этого делать , и действительно, вы не должны. Если вы хотите знать , отношения между pmи tempиrain, просто установите модель множественной регрессии со всеми тремя переменными. Вам все еще нужно будет оценить модель, чтобы определить, является ли она разумной, и предположения выполнены, но это все. Если вы хотите проверить некоторые априорные гипотезы, вы можете сделать это с помощью модели. Если вы хотите оценить точность прогнозирования модели вне выборки, вы можете сделать это с помощью перекрестной проверки.

Вам также не нужно беспокоиться о мультиколлинеарности. Корреляция между tempи rainуказана как 0.044в вашей матрице корреляции. Это очень низкая корреляция и не должно вызывать проблем.

Gung - Восстановить Монику
источник
1
Большое спасибо за ваши добрые предложения. я новичок в этом сайте, не знаю, как его использовать, не могли бы вы предоставить дополнительные предложения или учебные материалы
Сайед Асиф Али Шах
1
@SyedAsifAliShah, кроме того, что английский не кажется вашим родным языком, я не вижу проблем с тем, как вы используете сайт. Что касается учебных материалов, вы можете посмотреть на это или это , или просто просмотреть наши темы с тегом ссылки .
gung - Восстановить Монику
я должен попробовать линейную модель или GLM для моих данных?
Сайед Асиф Али Шах
1
@SyedAsifAliShah, по-видимому, линейная модель подходит для ваших данных.
gung - Восстановить Монику
брат, мне нужна твоя помощь
Сайед Асиф Али Шах
10

Хотя это не относится непосредственно к вашему уже собранному набору данных, еще одна вещь, которую вы могли бы попробовать в следующий раз, когда вы собираете такие данные, это избежать записи «дождя» в двоичном виде. Ваши данные, вероятно, были бы более информативными, если бы вы вместо этого измерили интенсивность дождя (см / час), которая давала бы вам переменную, распределенную непрерывно (с точностью до вашей точности измерений) от 0 ... max_rainfall.

Это позволит вам соотнести не только «идет ли дождь» с другими переменными, но также и «сколько идет дождь».

JKreft
источник
привет, братан, я сделал то же самое по твоему предложению, я собрал полные данные о дожде и построил модель
Сайед Асиф Али Шах
Могу ли я попросить вашу электронную почту, пожалуйста ??? Я просто хочу задать несколько вопросов
Сайед Асиф Али Шах
Если у вас есть дополнительные вопросы по настройке вашей модели, возможно, вам стоит выбрать новый вопрос StackExchange. Таким образом, вы можете получить обратную связь от большего количества людей, многие из которых более
опытны,
stats.stackexchange.com/questions/255959/…
Сайед Асиф Али Шах