Линейная связь между объясняющими переменными в множественной регрессии

10

Я читал главу о множественной регрессии « Анализ данных и графика с использованием R: подход на основе примеров» и был немного озадачен, обнаружив, что он рекомендует проверять линейные отношения между объясняющими переменными (используя диаграмму рассеяния) и, в случае отсутствия ' т любой, превращая их таким образом , они действительно становятся более линейно связаны. Вот некоторые выдержки из этого:

6.3 Стратегия подбора моделей множественной регрессии

(...)

Изучите матрицу диаграммы рассеяния, включающую все объясняющие переменные. (Включение зависимой переменной на данный момент необязательно. ) Сначала посмотрите на наличие нелинейности на графиках объясняющих переменных друг против друга.

(...)

Эта точка идентифицирует стратегию поиска модели - ищите модели, в которых отношения регрессии между объясняющими переменными принимают «простую» линейную форму . Таким образом, если некоторые попарные графики показывают свидетельство нелинейности, рассмотрите возможность использования преобразования (й), чтобы получить более близкие линейные отношения . Хотя это не обязательно может оказаться возможным, следуя этой стратегии, адекватно смоделировать регрессионные отношения, но это хорошая стратегия по причинам, указанным ниже, чтобы следовать при начале поиска.

(...)

Если отношения между объясняющими переменными являются приблизительно линейными, возможно, после преобразования, тогда можно с уверенностью интерпретировать графики переменных-предикторов относительно ответной переменной.

(...)

Может оказаться невозможным найти преобразования одной или нескольких объясняющих переменных, которые обеспечат линейные отношения (попарные), показанные на панелях. Это может создать проблемы как для интерпретации диагностических графиков для любого подобранного уравнения регрессии, так и для интерпретации коэффициентов в подобранном уравнении. Смотри Cook and Weisberg (1999).

Разве я не должен беспокоиться о линейных отношениях между зависимыми переменными (из-за риска мультиколлинеарности) вместо того, чтобы активно преследовать их? Каковы преимущества наличия приблизительно линейно связанных переменных?

Авторы рассматривают проблему мультиколлинеарности позже в этой главе, но эти рекомендации, похоже, расходятся с избеганием мультиколлинеарности.

RicardoC
источник

Ответы:

8

Здесь есть два момента:

  1. В отрывке рекомендуется преобразовывать IV в линейность только тогда, когда есть доказательства нелинейности. Нелинейные отношения между IV могут также вызвать коллинеарность и, что более важно, могут осложнить другие отношения. Я не уверен, что согласен с советами в книге, но это не глупо.

  2. Конечно, очень сильные линейные отношения могут быть причинами коллинеарности, но высокие корреляции не являются ни необходимыми, ни достаточными, чтобы вызвать проблематичную коллинеарность. Хорошим методом диагностики коллинеарности является индекс состояния.

РЕДАКТИРОВАТЬ в ответ на комментарий

Условия индексы кратко описаны здесь как «квадратный корень из максимального собственного значения , деленное на минимальное собственное». Здесь есть несколько постов, которые обсуждают их и их достоинства. Основными текстами на них являются две книги Дэвида Белсли: Диагностика кондиционирования и Диагностика регрессии (также есть новое издание, 2005).

Питер Флом
источник
1
+1 - хороший ответ, но можете ли вы расширить индекс условий? Мне еще предстоит найти удовлетворительные способы борьбы с коллинеарностью в объяснительных переменных кандидата.
BGreene
Спасибо за информативный ответ. Не могли бы вы пояснить, какие другие отношения осложняются нелинейностью среди expl. переменные? А вы сейчас о чем говорят авторы, когда говорят, что нелинейные отношения между expl. переменные могут вызвать проблемы с интерпретацией коэффициентов и диагностических графиков?
RicardoC
Я не могу привести пример прямо сейчас, но я видел, как это произошло. Может показаться, что между Y и X существуют нелинейные отношения
Питер Флом
3

Линейные отношения между каждой из объясняющих переменных и зависимой переменной обеспечат также линейные отношения между объясняющими переменными. Обратное, конечно, не правда.

Это правда, что преобразование (я), предназначенные для придания приближенной линейности, увеличат коллинеарность. Однако в отсутствие таких преобразований коллинеарность скрыта. Настаивание на сохранении коллинеарности, скрытой таким образом, может привести к сложному и не интерпретируемому уравнению регрессии, где доступна простая форма уравнения.

Предположим, что yэто близко к линейной функции log(x1), в случае, когда xдиапазоны превышают значения, которые отличаются в 10 и более раз. Тогда, если xиспользуется в качестве регрессора, другие объяснительные переменные будут, если это вообще возможно, вызваны для учета нелинейности в отношениях с x1. Результатом может быть очень сложное регрессионное отношение с неинтерпретируемыми коэффициентами вместо простой формы уравнения регрессии, которое охватывает всю доступную объяснительную силу.

Причудливые последствия, которые могут возникнуть из-за невозможности найти и работать с линейно связанными переменными, хорошо иллюстрируются в недавней статье, в которой утверждается, что эффект от имени урагана имеет женский характер, в данных о гибели 94 атлантических ураганов, которые обрушились на США в 1950–2012 годах. См. Http://www.pnas.org/content/111/24/8782.abstract . Данные доступны как часть дополнительной информации. Обратите внимание, что работа с log(deaths)линейной моделью теории нормалей и ее использование (функция R lm()) примерно эквивалентна использованию Юнгом и соавторами модели отрицательной биномиальной регрессии.

Если один регрессирует log(E[deaths])на log(NDAM), там ничего не осталось для переменной минимального давления, в женственности переменной и взаимодействия, чтобы объяснить. Переменная log(NDAM)not NDAMотображается в матрице диаграммы рассеяния как линейно связанная с переменной минимального давления. Распределение его также значительно меньше, оно намного ближе к симметричному.

Юнг и др регрессировали log(E[deaths])на NDAM(нормированная повреждения), а также тех других переменных и взаимодействий. Уравнение, которое затем появилось, использовалось, чтобы рассказать историю, в которой женственность имени имеет большой эффект.

Чтобы увидеть, как это странно использовать NDAMв качестве объяснительной переменной в регрессии, где переменная результата log(E[deaths]), график log(deaths+0.5)или log(deaths+1)против NDAM. Затем повторите сюжет с log(NDAM)вместо NDAM. Контраст еще более поразителен, если в сюжет будут включены Катрина и Одри, которых Юнг и др. Пропустили как выбросы. Настаивая на использовании NDAMв качестве объясняющей переменной, а не log(NDAM)Юнг и др. Упустили возможность найти очень простую форму регрессионных отношений.

Примечание E[deaths]: количество смертей, предсказанных моделью.

В данных Юнга и др. Необходимые преобразования могут быть идентифицированы по матрице рассеяния всех переменных. Попробуйте, возможно, функцию R spm()в последнем выпуске автомобильного пакета для R, с transform=TRUEи (с deathsпеременной) family="yjPower". Или поэкспериментируйте с преобразованиями, предложенными исходной матрицей рассеяния. В общем, предпочтительным советом может быть поиск сначала объясняющих переменных, которые удовлетворяют требованию линейных предикторов, а затем обращение к выходной переменной, возможно, с использованием функции автомобиля invTranPlot().

См. В дополнение к «Анализу данных и графике с использованием R», на который ссылался спрашивающий:

  • Вейсберг: Прикладная линейная регрессия. 4-е изд, Wiley 2014, с.185-203.
  • Фокс и Вейсберг: компаньон R в прикладной регрессии. 2nd edn, Sage, 2011, pp. 127-148.
Джон Майндональд
источник
1

Я нахожу весь этот отрывок довольно загадочным, если не совсем сомнительным. В идеале вы хотите, чтобы ваши независимые переменные были как можно более некоррелированными, чтобы предоставлять модели дополнительную информацию при оценке зависимой переменной. Вы поднимаете проблему мультиколлинеарности посредством высокой корреляции между независимыми переменными, и вы совершенно правы, когда поднимаете эту проблему в этих обстоятельствах.

Более важно исследовать график рассеяния и соответствующие линейные отношения между каждой из независимых переменных и зависимой переменной, но не между независимыми переменными. При рассмотрении таких диаграмм рассеяния (независимых от оси X и зависящих от оси Y) в это время могут быть возможности преобразовать независимую переменную, чтобы получить лучшее соответствие, будь то логарифм, экспонента или полиномиальная форма.

Sympa
источник
1
На Вашем 2 предложения: Если независимые переменные были полностью коррелированными, то большая часть обоснования регрессии станет спорным. Каждое двумерное отношение предиктора с Y будет отображаться так же, как отношение, когда все остальные предикторы контролировались. В таком случае зачем контроль?
rolando2