В чем разница между линейной регрессией по y с x и x с y?

97

Коэффициент корреляции Пирсона для x и y одинаков, независимо от того, вычисляете ли вы Pearson (x, y) или Pearson (y, x). Это говорит о том, что выполнение линейной регрессии y с учетом x или x с учетом y должно быть таким же, но я не думаю, что это так.

Может ли кто-то пролить свет на то, когда отношения не симметричны, и как это соотносится с коэффициентом корреляции Пирсона (который я всегда считаю суммированием линии наилучшего соответствия)?

user9097
источник
1
Каждая корреляционная матрица будет симметричной, потому что . Я призываю вас поработать над математикой, чтобы убедиться, что это действительно так. Если вы знаете, что отношения между и (или какими бы то ни было интересующими переменными) априори не симметричны , вам может быть полезно взглянуть на другие методы анализа. x yсоv(Икс,Y)знак равносоv(Y,Икс)ИксY
Филип Клауд
14
Интересные моменты были сделаны по смежному вопросу, Эффект переключения ответа и объясняющей переменной в простой линейной регрессии .
ЧЛ

Ответы:

159

Лучший способ подумать об этом - представить точечную диаграмму точек с на вертикальной оси и x, представленной горизонтальной осью. Учитывая эту структуру, вы видите облако точек, которые могут быть слегка круглыми или вытянутыми в эллипс. В регрессии вы пытаетесь найти то, что можно назвать «линией наилучшего соответствия». Однако, хотя это кажется простым, нам нужно выяснить, что мы подразумеваем под «лучшим», и это означает, что мы должны определить, что было бы для строки, чтобы она была хорошей, или чтобы одна строка была лучше, чем другая, и т. Д. мы должны оговорить функцию потерьYИкс, Функция потерь дает нам возможность сказать, насколько «плохо» что-то, и, таким образом, когда мы минимизируем это, мы делаем нашу линию как можно более «хорошей» или находим «лучшую» линию.

Традиционно, когда мы проводим регрессионный анализ, мы находим оценки наклона и пересечения, чтобы минимизировать сумму квадратов ошибок . Они определены следующим образом:

SSЕзнак равноΣязнак равно1N(Yя-(β^0+β^1Икся))2

С точки зрения нашего графика рассеяния это означает, что мы минимизируем (сумму квадратов) вертикальные расстояния между наблюдаемыми точками данных и линией.

введите описание изображения здесь

С другой стороны, вполне разумно регрессировать на y , но в этом случае мы бы поместили x на вертикальную ось и так далее. Если мы сохраним наш график как есть (с x на горизонтальной оси), регрессия x на y (опять же, с использованием слегка адаптированной версии приведенного выше уравнения с переключенными x и y ) означает, что мы будем минимизировать сумму горизонтальных расстоянийИксYИксИксИксYИксYмежду наблюдаемыми точками данных и линией. Это звучит очень похоже, но это не совсем то же самое. (Способ распознать это состоит в том, чтобы сделать это обоими способами, а затем алгебраически преобразовать один набор оценок параметров в условия другого. Сравнивая первую модель с переставленной версией второй модели, становится легко увидеть, что они не то же самое.)

введите описание изображения здесь

Обратите внимание, что ни один из способов не дал бы одну и ту же линию, которую мы нарисовали бы интуитивно, если бы кто-то вручил нам листок бумаги с нанесенными на него точками. В этом случае мы нарисуем линию, проходящую прямо через центр, но при минимизации вертикального расстояния получится немного более плоская линия (т. Е. С меньшим наклоном), а при минимизации горизонтального расстояния получится линия, которая немного круче .

Корреляция симметрична; так же коррелирует с у, как у с х . Однако корреляция Пирсона и момента продукта может быть понята в контексте регрессии. Коэффициент корреляции r - это наклон линии регрессии, когда обе переменные были стандартизированы первыми. То есть вы сначала вычитаете среднее из каждого наблюдения, а затем делите различия на стандартное отклонение. Облако точек данных теперь будет центрировано в начале координат, и наклон будет таким же, независимо от того, регрессировал ли вы y на x , или x на yИксYYИксрYИксИксY (но обратите внимание на комментарий @DilipSarwate ниже).

введите описание изображения здесь

Теперь, почему это важно? Используя нашу традиционную функцию потерь, мы говорим, что вся ошибка находится только в одной из переменных (а именно, ). То есть мы говорим, что x измеряется без ошибок и представляет собой набор значений, которые нас интересуют, но у y есть ошибка выборкиYИксY, Это очень отличается от высказывания обратного. Это было важно в интересном историческом эпизоде: в конце 70-х и начале 80-х годов в США было доказано, что существует дискриминация в отношении женщин на рабочем месте, и это было подкреплено регрессионным анализом, показывающим, что женщины с одинаковым фоном (например, , квалификации, опыта и т. д.) оплачивались, в среднем, меньше, чем мужчины. Критики (или просто люди, которые были очень тщательными) рассуждали, что если бы это было правдой, женщины, которым платили равные с мужчинами, должны были бы быть более высококвалифицированными, но когда это было проверено, оказалось, что хотя результаты были «значительными», когда Если оценивать с одной стороны, они не были «значительными», когда проверяли с другой стороны, что приводило всех в замешательство. Смотри здесь для известной газеты, которая пыталась прояснить проблему.


(Обновлено намного позже) Вот еще один способ думать об этом, который подходит к теме через формулы, а не визуально:

Формула для наклона простой линии регрессии является следствием принятой функции потерь. Если вы используете стандартную функцию потерь Обыкновенных наименьших квадратов (отмеченную выше), вы можете получить формулу для наклона, который вы видите в каждом вступительном учебнике. Эта формула может быть представлена ​​в различных формах; одна из которых я называю «интуитивной» формулой для склона. Рассмотрим эту форму как для ситуации , когда вы регресс на х , и где вы регресс х на у : у  на  х & beta ; 1 = Cov ( х , у )YИксИксY Теперь, я надеюсь, очевидно, что они не будут одинаковыми, еслиVar(x) не будетравенVar(y). Если отклоненияявляютсяодинаковыми (например, потому что вы стандартизированы переменными первым), то такстандартными отклонения, итаким образомдисперсиибы оба также равенSD(х)SD(у). В этом случае,β1будет равен Пирсонг, который является тем жеспособом либо в силепринципа коммутативности: соотнесения 

β^1знак равноCov(Икс,Y)Var(Икс)Y на Икс                              β^1знак равноCov(Y,Икс)Var(Y)Икс на Y
Var(Икс)Var(Y)SD(Икс)SD(Y)β^1р
рзнак равноCov(Икс,Y)SD(Икс)SD(Y)коррелирующий Икс с участием Y                           рзнак равноCov(Y,Икс)SD(Y)SD(Икс)коррелирующий Y с участием Икс
Gung - Восстановить Монику
источник
2
+1 за упоминание о минимизации функции потерь. Альтернативы вертикальным или горизонтальным расстояниям включают использование перпендикулярного расстояния до линии или площади прямоугольника, каждый из которых создает разные линии регрессии.
Генри
7
YИксИксYИксY
Dilip Sarwate
4
YИксИксИксYИкс
1
Не могли бы вы сказать, что в случае корреляции ортогональное расстояние между точками и линией минимизируется? (Я имею в виду линию, идущую от точки к линии «регрессии» и стоящую на ней ортогонально ).
Vonjd
1
Корреляция Пирсона не совсем соответствует линии, @vonjd. Оказывается, это эквивалентно наклону линии наименьших квадратов, когда данные были стандартизированы первыми. 1-ый главный компонент, когда есть только 2 переменные и данные были стандартизированы сначала, является своего рода подобранной линией, которая минимизирует ортогональные расстояния. HTH
gung - Восстановить Монику
12

Я собираюсь проиллюстрировать ответ с помощью некоторого Rкода и вывода.

Сначала мы строим случайное нормальное распределение yсо средним значением 5 и SD 1:

y <- rnorm(1000, mean=5, sd=1)

Затем я специально создаю второе случайное нормальное распределение x, которое просто в 5 раз больше yдля каждого y:

x <- y*5

По замыслу мы имеем идеальное соотношение xи y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Однако, когда мы делаем регрессию, мы ищем функцию, которая связана, xи yпоэтому результаты коэффициентов регрессии зависят от того, какой из них мы используем в качестве зависимой переменной, а какой - в качестве независимой переменной. В этом случае мы не помещаем перехват, потому что мы сделали xфункцию yбез случайного отклонения:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Таким образом, регрессии говорят нам то y=0.2xи это x=5y, что, конечно, эквивалентно. Коэффициент корреляции просто показывает нам, что существует точное совпадение уровней изменения единиц между xи y, так что (например) увеличение на 1 единицу yвсегда приводит к увеличению на 0,2 единицы x.

Мишель
источник
6

Понимание того, что поскольку корреляция Пирсона одинакова, независимо от того, делаем ли мы регрессию x против y или y против x, является хорошим, мы должны получить ту же линейную регрессию, и это хорошо. Это только немного неверно, и мы можем использовать его, чтобы понять, что на самом деле происходит.

Это уравнение для линии, которую мы пытаемся получить из нашей регрессии.

введите описание изображения здесь

Уравнение для наклона этой линии определяется корреляцией Пирсона.

введите описание изображения здесь

Это уравнение для корреляции Пирсона. Это то же самое, регрессируем ли мы х против у или у против х

введите описание изображения здесь

Однако, когда мы оглядываемся назад на наше второе уравнение для наклона, мы видим, что корреляция Пирсона - не единственный член в этом уравнении. Если мы вычисляем y против x, мы также имеем стандартное отклонение выборки y, деленное на стандартное отклонение выборки x. Если бы мы рассчитали регрессию x против y, нам нужно было бы инвертировать эти два термина.

Довольно ботаник
источник
4

По таким вопросам легко разбираться в технических вопросах, поэтому я бы хотел сосредоточиться конкретно на вопросе в заголовке темы, который спрашивает: в чем разница между линейной регрессией для y с x и x с y ?

заработная платазнак равноб0+б1 Годы обучения+ошибка

Годы обучениязнак равноб0+б1 заработная плата+ошибка

Я уверен, что вы можете придумать и другие примеры, подобные этому (тоже вне экономической сферы), но, как вы видите, интерпретация модели может значительно измениться, когда мы переключимся с регрессии y на x на x на y.

Итак, чтобы ответить на вопрос: в чем разница между линейной регрессией по y с x и x с y? Можно сказать, что интерпретация уравнения регрессии меняется, когда мы регрессируем x на y вместо y на x. Мы не должны упускать из виду этот пункт, потому что модель, которая имеет разумную интерпретацию, может быстро превратиться в модель, которая имеет мало или вообще не имеет смысла.

Грэм Уолш
источник
3

В этой теме есть очень интересное явление. После обмена x и y, хотя коэффициент регрессии изменяется, но t-статистика / F-статистика и уровень значимости для коэффициента не меняются. Это также верно даже для множественной регрессии, где мы обмениваемся y с одной из независимых переменных.

Это связано с тонкой взаимосвязью между F-статистикой и (частичным) коэффициентом корреляции. Это отношение действительно затрагивает ядро ​​теории линейных моделей. Более подробная информация об этом выводе содержится в моей записной книжке: почему обмен y и x не влияет на p

Prekop
источник
Вы можете найти следующую / интересную / смешанную тему: Поменять местами X и Y в регрессии, которая содержит предиктор группировки .
gung - Восстановить Монику
2
Статья «Почему обмен y и x не влияет на p» больше не здесь. Вы добавите его обратно?
JetLag
1

Разъясняю отличный ответ @ gung:

рYИксИксY

β^1YоNИксβ^1ИксоNYзнак равноCov(Икс,Y)Var(Икс)Cov(Y,Икс)Var(Y)знак равно|Cov(Икс,Y)|SD(Икс)SD(Y)знак равно|р|
р
рзнак равноsяграммN(β^1YоNИкс)β^1YоNИксβ^1ИксоNY
рзнак равноsяграммN(β^1ИксоNY)β^1YоNИксβ^1ИксоNY

р

|12(β^1YоNИкс+β^1ИксоNY)|β^1YоNИксβ^1ИксоNYзнак равно|р|

statmerkur
источник
1

Отношение не симметрично, потому что мы решаем две разные задачи оптимизации.  Делаем регрессию Y дано Икс

минбЕ(Y-бИкс)2

тогда как для делать регресс Икс дано Y

минбЕ(Икс-бY)2

минб1б2Е(Y-бИкс)2

Также важно отметить, что две разные проблемы могут иметь одно и то же решение.

SiXUlm
источник
1
Несмотря на то, что это правильно - и спасибо за эти наблюдения - вы оставляете ваши читатели повешение: Вы могли бы объяснить , почему решение этих двух различных перспективных проблем , обязательно отличаются?
whuber
1
Ты прав. На самом деле я думал об этом, но не смог найти простой (и менее математический) способ объяснить, почему два решения обязательно различаются, поэтому я попытался сделать так, чтобы эти две проблемы как можно более похожими. Здесь я просто пытаюсь представить другую точку зрения.смотрю
SiXUlm
как последняя строка эквивалентна средней линии? Если вы умножите 1 / b ^ 2, вы получите E (X - Y / b) ^ 2, а не E (X - Yb) ^ 2
Остин Шин
ббзнак равно1/б
+1: вы четко сделали свою точку зрения сейчас!
whuber
0

Что ж, это правда, что для простой двумерной регрессии коэффициент линейной корреляции и R-квадрат будут одинаковыми для обоих уравнений. Но наклоны будут r Sy / Sx или r Sx / Sy, которые не являются взаимными, если только r = 1.

user175531
источник
1
-1р2знак равно1
-7

Основной идеей регрессии может быть «причина и следствие» или «независимый и зависимый». Обычная практика размещения независимой переменной по оси X и зависимой переменной по оси Y представлена ​​как Y = mX + c. Будет ли наклон называться m (X на Y) или (Y на X), а регрессия -: (X на Y) или (Y на X). Он обрабатывается обоими способами, что не очень хорошо и требует уточнения. Разработчики моделей часто используют точечные диаграммы, чтобы судить, соответствует ли имитированная серия наблюдаемой серии; и использование линии регрессии неизбежно. здесь нет причинной оговорки. Исходя из этой необходимости, немой вопрос, поставленный потоком, стоит. Или, проще говоря, уточните, пожалуйста, как вызвать нормальный регрессионный анализ: X на Y; или Y на X?, выход за рамки причинного ответа. Это не ответ на основную тему; но параллельный вопрос.

М. Ранджит Кумар
источник
6
-1 Помимо того, что этот ответ непоследователен, он опускает ключевую идею, столь умело объясненную в лучшем ответе: вероятностная модель изменения данных определяет, является ли регрессия значимой, и определяет, какую переменную можно считать зависимой переменной.
whuber
Этот респондент может повторять одно из толкований общепризнанного названия вопроса с точки зрения обычного обозначения. Для задачи вида y = mx + b, обычно ли описывают отношение как «y регрессирует на x» (да) или как «x регрессирует на y» (нет)? Ответ на вопрос о терминологии можно получить по адресу stats.stackexchange.com/questions/207425/… .
InColorado