Коэффициент корреляции Пирсона для x и y одинаков, независимо от того, вычисляете ли вы Pearson (x, y) или Pearson (y, x). Это говорит о том, что выполнение линейной регрессии y с учетом x или x с учетом y должно быть таким же, но я не думаю, что это так.
Может ли кто-то пролить свет на то, когда отношения не симметричны, и как это соотносится с коэффициентом корреляции Пирсона (который я всегда считаю суммированием линии наилучшего соответствия)?
regression
correlation
linear-model
pearson-r
user9097
источник
источник
Ответы:
Лучший способ подумать об этом - представить точечную диаграмму точек с на вертикальной оси и x, представленной горизонтальной осью. Учитывая эту структуру, вы видите облако точек, которые могут быть слегка круглыми или вытянутыми в эллипс. В регрессии вы пытаетесь найти то, что можно назвать «линией наилучшего соответствия». Однако, хотя это кажется простым, нам нужно выяснить, что мы подразумеваем под «лучшим», и это означает, что мы должны определить, что было бы для строки, чтобы она была хорошей, или чтобы одна строка была лучше, чем другая, и т. Д. мы должны оговорить функцию потерьY Икс , Функция потерь дает нам возможность сказать, насколько «плохо» что-то, и, таким образом, когда мы минимизируем это, мы делаем нашу линию как можно более «хорошей» или находим «лучшую» линию.
Традиционно, когда мы проводим регрессионный анализ, мы находим оценки наклона и пересечения, чтобы минимизировать сумму квадратов ошибок . Они определены следующим образом:
С точки зрения нашего графика рассеяния это означает, что мы минимизируем (сумму квадратов) вертикальные расстояния между наблюдаемыми точками данных и линией.
С другой стороны, вполне разумно регрессировать на y , но в этом случае мы бы поместили x на вертикальную ось и так далее. Если мы сохраним наш график как есть (с x на горизонтальной оси), регрессия x на y (опять же, с использованием слегка адаптированной версии приведенного выше уравнения с переключенными x и y ) означает, что мы будем минимизировать сумму горизонтальных расстоянийИкс Y Икс Икс Икс Y Икс Y между наблюдаемыми точками данных и линией. Это звучит очень похоже, но это не совсем то же самое. (Способ распознать это состоит в том, чтобы сделать это обоими способами, а затем алгебраически преобразовать один набор оценок параметров в условия другого. Сравнивая первую модель с переставленной версией второй модели, становится легко увидеть, что они не то же самое.)
Обратите внимание, что ни один из способов не дал бы одну и ту же линию, которую мы нарисовали бы интуитивно, если бы кто-то вручил нам листок бумаги с нанесенными на него точками. В этом случае мы нарисуем линию, проходящую прямо через центр, но при минимизации вертикального расстояния получится немного более плоская линия (т. Е. С меньшим наклоном), а при минимизации горизонтального расстояния получится линия, которая немного круче .
Корреляция симметрична; так же коррелирует с у, как у с х . Однако корреляция Пирсона и момента продукта может быть понята в контексте регрессии. Коэффициент корреляции r - это наклон линии регрессии, когда обе переменные были стандартизированы первыми. То есть вы сначала вычитаете среднее из каждого наблюдения, а затем делите различия на стандартное отклонение. Облако точек данных теперь будет центрировано в начале координат, и наклон будет таким же, независимо от того, регрессировал ли вы y на x , или x на yИкс Y Y Икс р Y Икс Икс Y (но обратите внимание на комментарий @DilipSarwate ниже).
Теперь, почему это важно? Используя нашу традиционную функцию потерь, мы говорим, что вся ошибка находится только в одной из переменных (а именно, ). То есть мы говорим, что x измеряется без ошибок и представляет собой набор значений, которые нас интересуют, но у y есть ошибка выборкиY Икс Y , Это очень отличается от высказывания обратного. Это было важно в интересном историческом эпизоде: в конце 70-х и начале 80-х годов в США было доказано, что существует дискриминация в отношении женщин на рабочем месте, и это было подкреплено регрессионным анализом, показывающим, что женщины с одинаковым фоном (например, , квалификации, опыта и т. д.) оплачивались, в среднем, меньше, чем мужчины. Критики (или просто люди, которые были очень тщательными) рассуждали, что если бы это было правдой, женщины, которым платили равные с мужчинами, должны были бы быть более высококвалифицированными, но когда это было проверено, оказалось, что хотя результаты были «значительными», когда Если оценивать с одной стороны, они не были «значительными», когда проверяли с другой стороны, что приводило всех в замешательство. Смотри здесь для известной газеты, которая пыталась прояснить проблему.
(Обновлено намного позже) Вот еще один способ думать об этом, который подходит к теме через формулы, а не визуально:
Формула для наклона простой линии регрессии является следствием принятой функции потерь. Если вы используете стандартную функцию потерь Обыкновенных наименьших квадратов (отмеченную выше), вы можете получить формулу для наклона, который вы видите в каждом вступительном учебнике. Эта формула может быть представлена в различных формах; одна из которых я называю «интуитивной» формулой для склона. Рассмотрим эту форму как для ситуации , когда вы регресс на х , и где вы регресс х на у : у на х ⏞ & beta ; 1 = Cov ( х , у )Y Икс Икс Y
Теперь, я надеюсь, очевидно, что они не будут одинаковыми, еслиVar(x) не будетравенVar(y). Если отклоненияявляютсяодинаковыми (например, потому что вы стандартизированы переменными первым), то такстандартными отклонения, итаким образомдисперсиибы оба также равенSD(х)SD(у). В этом случае,β1будет равен Пирсонг, который является тем жеспособом либо в силепринципа коммутативности:
соотнесения
источник
Я собираюсь проиллюстрировать ответ с помощью некоторого
R
кода и вывода.Сначала мы строим случайное нормальное распределение
y
со средним значением 5 и SD 1:Затем я специально создаю второе случайное нормальное распределение
x
, которое просто в 5 раз большеy
для каждогоy
:По замыслу мы имеем идеальное соотношение
x
иy
:Однако, когда мы делаем регрессию, мы ищем функцию, которая связана,
x
иy
поэтому результаты коэффициентов регрессии зависят от того, какой из них мы используем в качестве зависимой переменной, а какой - в качестве независимой переменной. В этом случае мы не помещаем перехват, потому что мы сделалиx
функциюy
без случайного отклонения:Таким образом, регрессии говорят нам то
y=0.2x
и этоx=5y
, что, конечно, эквивалентно. Коэффициент корреляции просто показывает нам, что существует точное совпадение уровней изменения единиц междуx
иy
, так что (например) увеличение на 1 единицуy
всегда приводит к увеличению на 0,2 единицыx
.источник
Понимание того, что поскольку корреляция Пирсона одинакова, независимо от того, делаем ли мы регрессию x против y или y против x, является хорошим, мы должны получить ту же линейную регрессию, и это хорошо. Это только немного неверно, и мы можем использовать его, чтобы понять, что на самом деле происходит.
Это уравнение для линии, которую мы пытаемся получить из нашей регрессии.
Уравнение для наклона этой линии определяется корреляцией Пирсона.
Это уравнение для корреляции Пирсона. Это то же самое, регрессируем ли мы х против у или у против х
Однако, когда мы оглядываемся назад на наше второе уравнение для наклона, мы видим, что корреляция Пирсона - не единственный член в этом уравнении. Если мы вычисляем y против x, мы также имеем стандартное отклонение выборки y, деленное на стандартное отклонение выборки x. Если бы мы рассчитали регрессию x против y, нам нужно было бы инвертировать эти два термина.
источник
По таким вопросам легко разбираться в технических вопросах, поэтому я бы хотел сосредоточиться конкретно на вопросе в заголовке темы, который спрашивает: в чем разница между линейной регрессией для y с x и x с y ?
Я уверен, что вы можете придумать и другие примеры, подобные этому (тоже вне экономической сферы), но, как вы видите, интерпретация модели может значительно измениться, когда мы переключимся с регрессии y на x на x на y.
Итак, чтобы ответить на вопрос: в чем разница между линейной регрессией по y с x и x с y? Можно сказать, что интерпретация уравнения регрессии меняется, когда мы регрессируем x на y вместо y на x. Мы не должны упускать из виду этот пункт, потому что модель, которая имеет разумную интерпретацию, может быстро превратиться в модель, которая имеет мало или вообще не имеет смысла.
источник
В этой теме есть очень интересное явление. После обмена x и y, хотя коэффициент регрессии изменяется, но t-статистика / F-статистика и уровень значимости для коэффициента не меняются. Это также верно даже для множественной регрессии, где мы обмениваемся y с одной из независимых переменных.
Это связано с тонкой взаимосвязью между F-статистикой и (частичным) коэффициентом корреляции. Это отношение действительно затрагивает ядро теории линейных моделей. Более подробная информация об этом выводе содержится в моей записной книжке: почему обмен y и x не влияет на p
источник
Разъясняю отличный ответ @ gung:
источник
Отношение не симметрично, потому что мы решаем две разные задачи оптимизации. Делая регрессию у учитывая х минбE (Y- б х)2
тогда как дляделать регрессии х, заданного у минбE (X- б Y)2
Также важно отметить, что две разные проблемы могут иметь одно и то же решение.
источник
Что ж, это правда, что для простой двумерной регрессии коэффициент линейной корреляции и R-квадрат будут одинаковыми для обоих уравнений. Но наклоны будут r Sy / Sx или r Sx / Sy, которые не являются взаимными, если только r = 1.
источник
Основной идеей регрессии может быть «причина и следствие» или «независимый и зависимый». Обычная практика размещения независимой переменной по оси X и зависимой переменной по оси Y представлена как Y = mX + c. Будет ли наклон называться m (X на Y) или (Y на X), а регрессия -: (X на Y) или (Y на X). Он обрабатывается обоими способами, что не очень хорошо и требует уточнения. Разработчики моделей часто используют точечные диаграммы, чтобы судить, соответствует ли имитированная серия наблюдаемой серии; и использование линии регрессии неизбежно. здесь нет причинной оговорки. Исходя из этой необходимости, немой вопрос, поставленный потоком, стоит. Или, проще говоря, уточните, пожалуйста, как вызвать нормальный регрессионный анализ: X на Y; или Y на X?, выход за рамки причинного ответа. Это не ответ на основную тему; но параллельный вопрос.
источник