У меня, наверное, простой вопрос, но он меня сейчас озадачивает, поэтому я надеюсь, что вы мне поможете.
У меня есть модель регрессии наименьших квадратов, с одной независимой переменной и одной зависимой переменной. Отношения не значительны. Теперь я добавляю вторую независимую переменную. Теперь связь между первой независимой переменной и зависимой переменной становится существенной.
Как это работает? Это, вероятно, демонстрирует некоторую проблему с моим пониманием, но для меня, но я не вижу, как добавление этой второй независимой переменной может сделать первую значимой.
Ответы:
Хотя коллинеарность (переменных предикторов) является возможным объяснением, я хотел бы предположить, что это не вдохновляющее объяснение, потому что мы знаем, что коллинеарность связана с «общей информацией» среди предикторов, поэтому в этой стороне нет ничего таинственного или нелогичного эффект от введения второго коррелированного предиктора в модель.
Затем давайте рассмотрим случай двух предикторов, которые действительно ортогональны : между ними нет абсолютно никакой коллинеарности. Значительное изменение в значении все еще может произойти.
Определите переменные предиктора и X 2 и позвольте Y назвать предиктор . Регрессия Y против X 1 не будет существенной, когда изменение Y вокруг его среднего значения не будет заметно уменьшено, когда X 1 используется в качестве независимой переменной. Когда это изменение в значительной степени связано со второй переменной X 2 , однако, ситуация меняется. Напомним, что множественная регрессия Y против X 1 и X 2 эквивалентнаИкс1 Икс2 Y Y Икс1 Y Икс1 Икс2 Y Икс1 Икс2
Отдельно регрессируйте и X 1 против X 2 .Y Икс1 Икс2
Регресс остатков против остатков X 1 .Y X1
Остатки от первого шага убрали эффект . Когда X 2 тесно коррелирует с Y , это может выявить относительно небольшое количество изменений, которые ранее были замаскированы. Если это изменение связано с X 1 , мы получаем значительный результат.X2 X2 Y X1
Возможно, все это можно пояснить на конкретном примере. Для начала давайтеε
R
сгенерируем две ортогональные независимые переменные вместе с некоторой независимой случайной ошибкой :(ЭтотX1 X2
svd
шаг гарантирует, что два столбца матрицыx
(представляющие и X 2 ) ортогональны, исключая коллинеарность как возможное объяснение любых последующих результатов.)Затем создайте как линейную комбинацию X и ошибки. Я скорректировал коэффициенты, чтобы получить нелогичное поведение:Y X
Это реализация модели с n = 32 случаями.Y∼iidN(0.05X1+1.00X2,0.012) n=32
Посмотрите на две регрессии в вопросе. Во-первых , регрессируйте против X 1 :Y X1
Высокое значение p, равное 0,710, показывает, что является полностью несущественным.X1
Затем регрессируйте против X 1 и X 2 :Y X1 X2
Внезапно, в присутствии , X 1 становится очень значительным, на что указывают почти нулевые p-значения для обеих переменных.X2 X1
Мы можем визуализировать это поведение с помощью матрицы рассеяния переменных , X 2 и Y вместе с остатками, использованными в двухэтапной характеристике множественной регрессии, описанной выше. Поскольку X 1 и X 2 являются ортогональными, остатки X 1 будут такими же, как X 1, и, следовательно, их не нужно перерисовывать. Мы включим невязки Y против X 2 в матрицу диаграммы рассеяния, давая эту цифру:X1 X2 Y X1 X2 X1 X1 Y X2
Вот его рендеринг (с небольшим предварительным подтверждением):
Эта матрица графики имеет четыре строки и четыре столбца, которые я буду отсчитывать сверху вниз и слева направо.
Обратите внимание:
источник
Я думаю, что этот вопрос довольно подробно обсуждался ранее на этом сайте, если вы просто знали, где искать. Поэтому я, вероятно, добавлю комментарий позже с некоторыми ссылками на другие вопросы или могу отредактировать его, чтобы дать более полное объяснение, если я не смогу найти какой-либо.
Есть две основные возможности: во-первых, другой IV может поглотить некоторую остаточную изменчивость и, таким образом, увеличить мощность статистического теста первоначального IV. Вторая возможность заключается в том, что у вас есть переменная подавителя. Это очень нелогичная тема, но вы можете найти некоторую информацию здесь *, здесь или в этой отличной ветке резюме .
* Обратите внимание, что вам нужно прочитать весь путь до конца, чтобы перейти к части, которая объясняет переменные-подавители, вы можете просто пропустить это, но вам лучше всего будет прочитать все это.
Редактировать: как и обещал, я добавляю более полное объяснение своей точки зрения относительно того, как другой IV может поглотить некоторую остаточную изменчивость и, таким образом, увеличить мощность статистического теста первоначального IV. @whuber добавил впечатляющий пример, но я подумал, что могу добавить дополнительный пример, который объясняет это явление по-другому, что может помочь некоторым людям более ясно понять это явление. Кроме того, я демонстрирую, что второй IV не должен быть более тесно связан (хотя на практике это почти всегда будет происходить для этого явления).
R
По общему признанию, это не что иное, как драматический пример в посте @ whuber, но они могут помочь людям понять, что здесь происходит.
источник
Такое ощущение, что вопрос ОП можно интерпретировать двумя различными способами:
Математически, как работает OLS, так что добавление независимой переменной может неожиданно изменить результаты?
Как изменение моей модели путем добавления одной переменной может изменить эффект другой независимой переменной в модели?
На вопрос № 1 уже есть несколько хороших ответов. И вопрос № 2 может быть настолько очевидным для экспертов, что они предполагают, что ФП должен задавать вопрос № 1. Но я думаю, что вопрос № 2 заслуживает ответа, который был бы что-то вроде:
Давайте начнем с примера. Скажем, у вас были рост, возраст, пол и т. Д. Нескольких детей, и вы хотели сделать регрессию, чтобы предсказать их рост.
Вы начинаете с наивной модели, которая использует пол в качестве независимой переменной. И это не является статистически значимым. (Как это может быть, вы смешиваете 3-летних и подростков.)
Затем вы добавляете возраст, и вдруг возраст становится не только значимым, но и полом. Как это может быть?
Конечно, в моем примере вы можете ясно видеть, что возраст является важным фактором роста ребенка / подростка. Вероятно, самый важный фактор, о котором у вас есть данные. Пол также может иметь значение, особенно для детей старшего возраста и взрослых, но только пол является плохой моделью того, каков рост ребенка.
Возраст плюс пол - разумная (хотя, конечно, упрощенная) модель, подходящая для этой задачи Если вы добавите другие данные - взаимодействие возраста и пола, рацион питания, рост родителей и т. Д. - вы могли бы сделать еще лучшую модель, которая, конечно, все еще будет упрощена по сравнению с множеством факторов, которые фактически определяют рост ребенка, но опять же все модели являются упрощенной версией реальности. (Карта мира в масштабе 1: 1 не слишком полезна для путешественника.)
Ваша оригинальная модель (только пол) слишком упрощена - настолько упрощена, что по сути сломана. Но это не значит, что пол не полезен в лучшей модели.
РЕДАКТИРОВАТЬ: добавлено предложение gung о: термин взаимодействия возраста и пола.
источник
В этой теме уже три отличных ответа (+1 к каждому). Мой ответ - это расширенный комментарий и иллюстрация к высказыванию @gung (что заняло у меня некоторое время, чтобы понять):
"Enhancement"
На следующем рисунке показаны обе возможности, перечисленные @gung. Сначала рассмотрим только синюю часть (т.е. игнорируем все красные линии):
Другой способ выразить это состоит в том, что тест сравнивает длину OF с OG, а не с OC, как раньше; OF является крошечным и «незначительным» по сравнению с OC, но достаточно большим, чтобы быть «значительным» по сравнению с OG.
Это именно ситуация представлена @whuber, @gung и @Wayne в своих ответах. Я не знаю, имеет ли этот эффект стандартное название в литературе по регрессии, поэтому я назову его «улучшение».
подавление
Не так в подавлении.
источник