В чем разница между линейной регрессией по y с x и x с y?

97

Коэффициент корреляции Пирсона для x и y одинаков, независимо от того, вычисляете ли вы Pearson (x, y) или Pearson (y, x). Это говорит о том, что выполнение линейной регрессии y с учетом x или x с учетом y должно быть таким же, но я не думаю, что это так.

Может ли кто-то пролить свет на то, когда отношения не симметричны, и как это соотносится с коэффициентом корреляции Пирсона (который я всегда считаю суммированием линии наилучшего соответствия)?

regression correlation linear-model pearson-r user9097
источник

1

Каждая корреляционная матрица будет симметричной, потому что . Я призываю вас поработать над математикой, чтобы убедиться, что это действительно так. Если вы знаете, что отношения между и (или какими бы то ни было интересующими переменными) априори не симметричны , вам может быть полезно взглянуть на другие методы анализа.

c o v (x, y) = c o v (y, x)

$\mathrm{cov}\left(x,y\right)=\mathrm{cov}\left(y,x\right)$

x

$x$

y

$y$

Филип Клауд

14

Интересные моменты были сделаны по смежному вопросу, Эффект переключения ответа и объясняющей переменной в простой линейной регрессии .

ЧЛ

159

Лучший способ подумать об этом - представить точечную диаграмму точек с на вертикальной оси и представленной горизонтальной осью. Учитывая эту структуру, вы видите облако точек, которые могут быть слегка круглыми или вытянутыми в эллипс. В регрессии вы пытаетесь найти то, что можно назвать «линией наилучшего соответствия». Однако, хотя это кажется простым, нам нужно выяснить, что мы подразумеваем под «лучшим», и это означает, что мы должны определить, что было бы для строки, чтобы она была хорошей, или чтобы одна строка была лучше, чем другая, и т. Д. мы должны оговорить функцию потерь $y$ $x$ , Функция потерь дает нам возможность сказать, насколько «плохо» что-то, и, таким образом, когда мы минимизируем это, мы делаем нашу линию как можно более «хорошей» или находим «лучшую» линию.

Традиционно, когда мы проводим регрессионный анализ, мы находим оценки наклона и пересечения, чтобы минимизировать сумму квадратов ошибок . Они определены следующим образом:

S S Е знак равно Σ_{я знак равно 1}^{N} (Y_{я} - ({\hat{β}}_{0} + {\hat{β}}_{1} {Икс}_{я}))^{2}

$SSE=\sum_{i=1}^N(y_i-(\hat\beta_0+\hat\beta_1x_i))^2$

С точки зрения нашего графика рассеяния это означает, что мы минимизируем (сумму квадратов) вертикальные расстояния между наблюдаемыми точками данных и линией.

введите описание изображения здесь

С другой стороны, вполне разумно регрессировать на , но в этом случае мы бы поместили на вертикальную ось и так далее. Если мы сохраним наш график как есть (с на горизонтальной оси), регрессия на (опять же, с использованием слегка адаптированной версии приведенного выше уравнения с переключенными и ) означает, что мы будем минимизировать сумму горизонтальных расстояний $x$ $y$ $x$ $x$ $x$ $y$ $x$ $y$ между наблюдаемыми точками данных и линией. Это звучит очень похоже, но это не совсем то же самое. (Способ распознать это состоит в том, чтобы сделать это обоими способами, а затем алгебраически преобразовать один набор оценок параметров в условия другого. Сравнивая первую модель с переставленной версией второй модели, становится легко увидеть, что они не то же самое.)

введите описание изображения здесь

Обратите внимание, что ни один из способов не дал бы одну и ту же линию, которую мы нарисовали бы интуитивно, если бы кто-то вручил нам листок бумаги с нанесенными на него точками. В этом случае мы нарисуем линию, проходящую прямо через центр, но при минимизации вертикального расстояния получится немного более плоская линия (т. Е. С меньшим наклоном), а при минимизации горизонтального расстояния получится линия, которая немного круче .

Корреляция симметрична; так же коррелирует с как с . Однако корреляция Пирсона и момента продукта может быть понята в контексте регрессии. Коэффициент корреляции - это наклон линии регрессии, когда обе переменные были стандартизированы первыми. То есть вы сначала вычитаете среднее из каждого наблюдения, а затем делите различия на стандартное отклонение. Облако точек данных теперь будет центрировано в начале координат, и наклон будет таким же, независимо от того, регрессировал ли вы на , или на $x$ $y$ $y$ $x$ $r$ $y$ $x$ $x$ $y$ (но обратите внимание на комментарий @DilipSarwate ниже).

введите описание изображения здесь

Теперь, почему это важно? Используя нашу традиционную функцию потерь, мы говорим, что вся ошибка находится только в одной из переменных (а именно, ). То есть мы говорим, что измеряется без ошибок и представляет собой набор значений, которые нас интересуют, но есть ошибка выборки $y$ $x$ $y$ , Это очень отличается от высказывания обратного. Это было важно в интересном историческом эпизоде: в конце 70-х и начале 80-х годов в США было доказано, что существует дискриминация в отношении женщин на рабочем месте, и это было подкреплено регрессионным анализом, показывающим, что женщины с одинаковым фоном (например, , квалификации, опыта и т. д.) оплачивались, в среднем, меньше, чем мужчины. Критики (или просто люди, которые были очень тщательными) рассуждали, что если бы это было правдой, женщины, которым платили равные с мужчинами, должны были бы быть более высококвалифицированными, но когда это было проверено, оказалось, что хотя результаты были «значительными», когда Если оценивать с одной стороны, они не были «значительными», когда проверяли с другой стороны, что приводило всех в замешательство. Смотри здесь для известной газеты, которая пыталась прояснить проблему.

(Обновлено намного позже) Вот еще один способ думать об этом, который подходит к теме через формулы, а не визуально:

Формула для наклона простой линии регрессии является следствием принятой функции потерь. Если вы используете стандартную функцию потерь Обыкновенных наименьших квадратов (отмеченную выше), вы можете получить формулу для наклона, который вы видите в каждом вступительном учебнике. Эта формула может быть представлена в различных формах; одна из которых я называю «интуитивной» формулой для склона. Рассмотрим эту форму как для ситуации , когда вы регресс на , и где вы регресс на : $y$ $x$ $x$ $y$ Теперь, я надеюсь, очевидно, что они не будут одинаковыми, еслиравен. Если отклоненияявляютсяодинаковыми (например, потому что вы стандартизированы переменными первым), то такстандартными отклонения, итаким образомдисперсиибы оба также равен. В этом будет равен Пирсон, который является тем жеспособом либо в силепринципа коммутативности:

\overset{Y на Икс}{\overset{⏞}{{\hat{β}}_{1} знак равно \frac{Cov (Икс, Y)}{Var (Икс)}}} \overset{Икс на Y}{\overset{⏞}{{\hat{β}}_{1} знак равно \frac{Cov (Y, Икс)}{Var (Y)}}}

$\overbrace{\hat\beta_1=\frac{\text{Cov}(x,y)}{\text{Var}(x)}}^{y\text{ on } x}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\overbrace{\hat\beta_1=\frac{\text{Cov}(y,x)}{\text{Var}(y)}}^{x\text{ on }y}$

Var (x)

$\text{Var}(x)$

Var (y)

$\text{Var}(y)$

SD (x) SD (y)

$\text{SD}(x)\text{SD}(y)$

{\hat{β}}_{1}

$\hat\beta_1$

r

$r$

\overset{коррелирующий Икс с участием Y}{\overset{⏞}{р знак равно \frac{Cov (Икс, Y)}{SD (Икс) SD (Y)}}} \overset{коррелирующий Y с участием Икс}{\overset{⏞}{р знак равно \frac{Cov (Y, Икс)}{SD (Y) SD (Икс)}}}

$\overbrace{r=\frac{\text{Cov}(x,y)}{\text{SD}(x)\text{SD}(y)}}^{\text{correlating }x\text{ with }y}~~~~~~~~~~~~~~~~~~~~~~~~~~~\overbrace{r=\frac{\text{Cov}(y,x)}{\text{SD}(y)\text{SD}(x)}}^{\text{correlating }y\text{ with }x}$

Gung - Восстановить Монику
источник

2

+1 за упоминание о минимизации функции потерь. Альтернативы вертикальным или горизонтальным расстояниям включают использование перпендикулярного расстояния до линии или площади прямоугольника, каждый из которых создает разные линии регрессии.

Генри

7

y

$y$

x

$x$

x

$x$

y

$y$

x

$x$

y

$y$

Dilip Sarwate

4

$y$ $x$

x

$x$

x

$x$

y

$y$

x

$x$

1

Не могли бы вы сказать, что в случае корреляции ортогональное расстояние между точками и линией минимизируется? (Я имею в виду линию, идущую от точки к линии «регрессии» и стоящую на ней ортогонально ).

Vonjd

1

Корреляция Пирсона не совсем соответствует линии, @vonjd. Оказывается, это эквивалентно наклону линии наименьших квадратов, когда данные были стандартизированы первыми. 1-ый главный компонент, когда есть только 2 переменные и данные были стандартизированы сначала, является своего рода подобранной линией, которая минимизирует ортогональные расстояния. HTH

gung - Восстановить Монику

12

Я собираюсь проиллюстрировать ответ с помощью некоторого Rкода и вывода.

Сначала мы строим случайное нормальное распределение yсо средним значением 5 и SD 1:

y <- rnorm(1000, mean=5, sd=1)

Затем я специально создаю второе случайное нормальное распределение x, которое просто в 5 раз больше yдля каждого y:

x <- y*5

По замыслу мы имеем идеальное соотношение xи y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Однако, когда мы делаем регрессию, мы ищем функцию, которая связана, xи yпоэтому результаты коэффициентов регрессии зависят от того, какой из них мы используем в качестве зависимой переменной, а какой - в качестве независимой переменной. В этом случае мы не помещаем перехват, потому что мы сделали xфункцию yбез случайного отклонения:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5

Таким образом, регрессии говорят нам то y=0.2xи это x=5y, что, конечно, эквивалентно. Коэффициент корреляции просто показывает нам, что существует точное совпадение уровней изменения единиц между xи y, так что (например) увеличение на 1 единицу yвсегда приводит к увеличению на 0,2 единицы x.

Мишель
источник

6

Понимание того, что поскольку корреляция Пирсона одинакова, независимо от того, делаем ли мы регрессию x против y или y против x, является хорошим, мы должны получить ту же линейную регрессию, и это хорошо. Это только немного неверно, и мы можем использовать его, чтобы понять, что на самом деле происходит.

Это уравнение для линии, которую мы пытаемся получить из нашей регрессии.

Уравнение для наклона этой линии определяется корреляцией Пирсона.

Это уравнение для корреляции Пирсона. Это то же самое, регрессируем ли мы х против у или у против х

Однако, когда мы оглядываемся назад на наше второе уравнение для наклона, мы видим, что корреляция Пирсона - не единственный член в этом уравнении. Если мы вычисляем y против x, мы также имеем стандартное отклонение выборки y, деленное на стандартное отклонение выборки x. Если бы мы рассчитали регрессию x против y, нам нужно было бы инвертировать эти два термина.

Довольно ботаник
источник

4

По таким вопросам легко разбираться в технических вопросах, поэтому я бы хотел сосредоточиться конкретно на вопросе в заголовке темы, который спрашивает: в чем разница между линейной регрессией для y с x и x с y ?

заработная плата знак равно б_{0} + б_{1} Годы обучения + ошибка

$\begin{equation} \text{wages} = b_{0} + b_{1}~\text{years of education} + \text{error} \end{equation}$

Годы обучения знак равно б_{0} + б_{1} заработная плата + ошибка

$\begin{equation} \text{years of education} = b_{0} + b_{1}~\text{wages} + \text{error} \end{equation}$

Я уверен, что вы можете придумать и другие примеры, подобные этому (тоже вне экономической сферы), но, как вы видите, интерпретация модели может значительно измениться, когда мы переключимся с регрессии y на x на x на y.

Итак, чтобы ответить на вопрос: в чем разница между линейной регрессией по y с x и x с y? Можно сказать, что интерпретация уравнения регрессии меняется, когда мы регрессируем x на y вместо y на x. Мы не должны упускать из виду этот пункт, потому что модель, которая имеет разумную интерпретацию, может быстро превратиться в модель, которая имеет мало или вообще не имеет смысла.

Грэм Уолш
источник

3

В этой теме есть очень интересное явление. После обмена x и y, хотя коэффициент регрессии изменяется, но t-статистика / F-статистика и уровень значимости для коэффициента не меняются. Это также верно даже для множественной регрессии, где мы обмениваемся y с одной из независимых переменных.

Это связано с тонкой взаимосвязью между F-статистикой и (частичным) коэффициентом корреляции. Это отношение действительно затрагивает ядро теории линейных моделей. Более подробная информация об этом выводе содержится в моей записной книжке: почему обмен y и x не влияет на p

Prekop
источник

Вы можете найти следующую / интересную / смешанную тему: Поменять местами X и Y в регрессии, которая содержит предиктор группировки .

gung - Восстановить Монику

2

Статья «Почему обмен y и x не влияет на p» больше не здесь. Вы добавите его обратно?

JetLag

1

Разъясняю отличный ответ @ gung:

$r$ $y$ $x$ $x$ $y$

\sqrt{{\hat{β}}_{1}_{Y о N Икс} \cdot {\hat{β}}_{1}_{Икс о N Y}} знак равно \sqrt{\frac{Cov (Икс, Y)}{Var (Икс)} \cdot \frac{Cov (Y, Икс)}{Var (Y)}} знак равно \frac{| Cov (Икс, Y) |}{SD (Икс) \cdot SD (Y)} знак равно | р |

$\sqrt{{\hat{\beta}_1}_{y\,on\,x} \cdot {\hat{\beta}_1}_{x\,on\,y}} = \sqrt{\frac{\text{Cov}(x,y)}{\text{Var}(x)} \cdot \frac{\text{Cov}(y,x)}{\text{Var}(y)}} = \frac{|\text{Cov}(x,y)|}{\text{SD}(x) \cdot \text{SD}(y)} = |r|$

r

$r$

р знак равно s я грамм N ({\hat{β}}_{1}_{Y о N Икс}) \cdot \sqrt{{\hat{β}}_{1}_{Y о N Икс} \cdot {\hat{β}}_{1}_{Икс о N Y}}

$r = sign({\hat{\beta}_1}_{y\,on\,x}) \cdot \sqrt{{\hat{\beta}_1}_{y\,on\,x} \cdot {\hat{\beta}_1}_{x\,on\,y}}$

р знак равно s я грамм N ({\hat{β}}_{1}_{Икс о N Y}) \cdot \sqrt{{\hat{β}}_{1}_{Y о N Икс} \cdot {\hat{β}}_{1}_{Икс о N Y}}

$r = sign({\hat{\beta}_1}_{x\,on\,y}) \cdot \sqrt{{\hat{\beta}_1}_{y\,on\,x} \cdot {\hat{\beta}_1}_{x\,on\,y}}$

$r$

| \frac{1}{2} \cdot ({\hat{β}}_{1}_{Y о N Икс} + {\hat{β}}_{1}_{Икс о N Y}) | \geq \sqrt{{\hat{β}}_{1}_{Y о N Икс} \cdot {\hat{β}}_{1}_{Икс о N Y}} знак равно | р |

$|\frac{1}{2} \cdot ({\hat{\beta}_1}_{y\,on\,x} + {\hat{\beta}_1}_{x\,on\,y})| \geq \sqrt{{\hat{\beta}_1}_{y\,on\,x} \cdot {\hat{\beta}_1}_{x\,on\,y}} = |r|$

statmerkur
источник

1

Отношение не симметрично, потому что мы решаем две разные задачи оптимизации. $\textbf{ Doing regression of $y$ given $x$}$

\underset{б}{мин} Е (Y - б Икс)^{2}

$\min_b \mathbb E(Y - bX)^2$

тогда как для $\textbf{doing regression of $x$ given $y$}$

\underset{б}{мин} Е (Икс - б Y)^{2}

$\min_b \mathbb E(X - bY)^2$

\underset{б}{мин} \frac{1}{б^{2}} Е (Y - б Икс)^{2}

$\min_b \frac{1}{b^2} \mathbb E(Y - bX)^2$

Также важно отметить, что две разные проблемы могут иметь одно и то же решение.

SiXUlm
источник

1

Несмотря на то, что это правильно - и спасибо за эти наблюдения - вы оставляете ваши читатели повешение: Вы могли бы объяснить , почему решение этих двух различных перспективных проблем , обязательно отличаются?

whuber

1

Ты прав. На самом деле я думал об этом, но не смог найти простой (и менее математический) способ объяснить, почему два решения обязательно различаются, поэтому я попытался сделать так, чтобы эти две проблемы

как можно более похожими. Здесь я просто пытаюсь представить другую точку зрения.

look

$\textit{look}$

SiXUlm

как последняя строка эквивалентна средней линии? Если вы умножите 1 / b ^ 2, вы получите E (X - Y / b) ^ 2, а не E (X - Yb) ^ 2

Остин Шин

b

$b$

b := 1 / b

$b: = 1/b$

+1: вы четко сделали свою точку зрения сейчас!

whuber

0

Что ж, это правда, что для простой двумерной регрессии коэффициент линейной корреляции и R-квадрат будут одинаковыми для обоих уравнений. Но наклоны будут r Sy / Sx или r Sx / Sy, которые не являются взаимными, если только r = 1.

user175531
источник

1

- 1

$-1$

r^{2} = 1

$r^2=1$

-7

Основной идеей регрессии может быть «причина и следствие» или «независимый и зависимый». Обычная практика размещения независимой переменной по оси X и зависимой переменной по оси Y представлена как Y = mX + c. Будет ли наклон называться m (X на Y) или (Y на X), а регрессия -: (X на Y) или (Y на X). Он обрабатывается обоими способами, что не очень хорошо и требует уточнения. Разработчики моделей часто используют точечные диаграммы, чтобы судить, соответствует ли имитированная серия наблюдаемой серии; и использование линии регрессии неизбежно. здесь нет причинной оговорки. Исходя из этой необходимости, немой вопрос, поставленный потоком, стоит. Или, проще говоря, уточните, пожалуйста, как вызвать нормальный регрессионный анализ: X на Y; или Y на X?, выход за рамки причинного ответа. Это не ответ на основную тему; но параллельный вопрос.

М. Ранджит Кумар
источник

6

-1 Помимо того, что этот ответ непоследователен, он опускает ключевую идею, столь умело объясненную в лучшем ответе: вероятностная модель изменения данных определяет, является ли регрессия значимой, и определяет, какую переменную можно считать зависимой переменной.

whuber

Этот респондент может повторять одно из толкований общепризнанного названия вопроса с точки зрения обычного обозначения. Для задачи вида y = mx + b, обычно ли описывают отношение как «y регрессирует на x» (да) или как «x регрессирует на y» (нет)? Ответ на вопрос о терминологии можно получить по адресу stats.stackexchange.com/questions/207425/… .

InColorado

В чем разница между линейной регрессией по y с x и x с y?

Ответы: