Я читал главу о множественной регрессии « Анализ данных и графика с использованием R: подход на основе примеров» и был немного озадачен, обнаружив, что он рекомендует проверять линейные отношения между объясняющими переменными (используя диаграмму рассеяния) и, в случае отсутствия ' т любой, превращая их таким образом , они действительно становятся более линейно связаны. Вот некоторые выдержки из этого:
6.3 Стратегия подбора моделей множественной регрессии
(...)
Изучите матрицу диаграммы рассеяния, включающую все объясняющие переменные. (Включение зависимой переменной на данный момент необязательно. ) Сначала посмотрите на наличие нелинейности на графиках объясняющих переменных друг против друга.
(...)
Эта точка идентифицирует стратегию поиска модели - ищите модели, в которых отношения регрессии между объясняющими переменными принимают «простую» линейную форму . Таким образом, если некоторые попарные графики показывают свидетельство нелинейности, рассмотрите возможность использования преобразования (й), чтобы получить более близкие линейные отношения . Хотя это не обязательно может оказаться возможным, следуя этой стратегии, адекватно смоделировать регрессионные отношения, но это хорошая стратегия по причинам, указанным ниже, чтобы следовать при начале поиска.
(...)
Если отношения между объясняющими переменными являются приблизительно линейными, возможно, после преобразования, тогда можно с уверенностью интерпретировать графики переменных-предикторов относительно ответной переменной.
(...)
Может оказаться невозможным найти преобразования одной или нескольких объясняющих переменных, которые обеспечат линейные отношения (попарные), показанные на панелях. Это может создать проблемы как для интерпретации диагностических графиков для любого подобранного уравнения регрессии, так и для интерпретации коэффициентов в подобранном уравнении. Смотри Cook and Weisberg (1999).
Разве я не должен беспокоиться о линейных отношениях между зависимыми переменными (из-за риска мультиколлинеарности) вместо того, чтобы активно преследовать их? Каковы преимущества наличия приблизительно линейно связанных переменных?
Авторы рассматривают проблему мультиколлинеарности позже в этой главе, но эти рекомендации, похоже, расходятся с избеганием мультиколлинеарности.
источник
Линейные отношения между каждой из объясняющих переменных и зависимой переменной обеспечат также линейные отношения между объясняющими переменными. Обратное, конечно, не правда.
Это правда, что преобразование (я), предназначенные для придания приближенной линейности, увеличат коллинеарность. Однако в отсутствие таких преобразований коллинеарность скрыта. Настаивание на сохранении коллинеарности, скрытой таким образом, может привести к сложному и не интерпретируемому уравнению регрессии, где доступна простая форма уравнения.
Предположим, что
y
это близко к линейной функцииlog(x1)
, в случае, когдаx
диапазоны превышают значения, которые отличаются в 10 и более раз. Тогда, еслиx
используется в качестве регрессора, другие объяснительные переменные будут, если это вообще возможно, вызваны для учета нелинейности в отношениях с x1. Результатом может быть очень сложное регрессионное отношение с неинтерпретируемыми коэффициентами вместо простой формы уравнения регрессии, которое охватывает всю доступную объяснительную силу.Причудливые последствия, которые могут возникнуть из-за невозможности найти и работать с линейно связанными переменными, хорошо иллюстрируются в недавней статье, в которой утверждается, что эффект от имени урагана имеет женский характер, в данных о гибели 94 атлантических ураганов, которые обрушились на США в 1950–2012 годах. См. Http://www.pnas.org/content/111/24/8782.abstract . Данные доступны как часть дополнительной информации. Обратите внимание, что работа с
log(deaths)
линейной моделью теории нормалей и ее использование (функция Rlm()
) примерно эквивалентна использованию Юнгом и соавторами модели отрицательной биномиальной регрессии.Если один регрессирует
log(E[deaths])
наlog(NDAM)
, там ничего не осталось для переменной минимального давления, в женственности переменной и взаимодействия, чтобы объяснить. Переменнаяlog(NDAM)
notNDAM
отображается в матрице диаграммы рассеяния как линейно связанная с переменной минимального давления. Распределение его также значительно меньше, оно намного ближе к симметричному.Юнг и др регрессировали
log(E[deaths])
наNDAM
(нормированная повреждения), а также тех других переменных и взаимодействий. Уравнение, которое затем появилось, использовалось, чтобы рассказать историю, в которой женственность имени имеет большой эффект.Чтобы увидеть, как это странно использовать
NDAM
в качестве объяснительной переменной в регрессии, где переменная результатаlog(E[deaths])
, графикlog(deaths+0.5)
илиlog(deaths+1)
противNDAM
. Затем повторите сюжет сlog(NDAM)
вместоNDAM
. Контраст еще более поразителен, если в сюжет будут включены Катрина и Одри, которых Юнг и др. Пропустили как выбросы. Настаивая на использованииNDAM
в качестве объясняющей переменной, а неlog(NDAM)
Юнг и др. Упустили возможность найти очень простую форму регрессионных отношений.Примечание
E[deaths]
: количество смертей, предсказанных моделью.В данных Юнга и др. Необходимые преобразования могут быть идентифицированы по матрице рассеяния всех переменных. Попробуйте, возможно, функцию R
spm()
в последнем выпуске автомобильного пакета для R, сtransform=TRUE
и (сdeaths
переменной)family="yjPower"
. Или поэкспериментируйте с преобразованиями, предложенными исходной матрицей рассеяния. В общем, предпочтительным советом может быть поиск сначала объясняющих переменных, которые удовлетворяют требованию линейных предикторов, а затем обращение к выходной переменной, возможно, с использованием функции автомобиляinvTranPlot()
.См. В дополнение к «Анализу данных и графике с использованием R», на который ссылался спрашивающий:
источник
Я нахожу весь этот отрывок довольно загадочным, если не совсем сомнительным. В идеале вы хотите, чтобы ваши независимые переменные были как можно более некоррелированными, чтобы предоставлять модели дополнительную информацию при оценке зависимой переменной. Вы поднимаете проблему мультиколлинеарности посредством высокой корреляции между независимыми переменными, и вы совершенно правы, когда поднимаете эту проблему в этих обстоятельствах.
Более важно исследовать график рассеяния и соответствующие линейные отношения между каждой из независимых переменных и зависимой переменной, но не между независимыми переменными. При рассмотрении таких диаграмм рассеяния (независимых от оси X и зависящих от оси Y) в это время могут быть возможности преобразовать независимую переменную, чтобы получить лучшее соответствие, будь то логарифм, экспонента или полиномиальная форма.
источник