Обычная регрессия против регрессии, когда переменные различаются

13

Я просто пытаюсь понять, какова связь между обычной множественной / простой регрессией и множественной / простой регрессией, когда переменные различаются.

Например, я анализирую соотношение между депозитным балансом ( ) и рыночными ставками ( ). Если я использую простую линейную регрессию, корреляция будет отрицательной и довольно значительной (около -.74). Однако, если я возьму журнал и разница зависимой переменной и разница независимой переменной, поэтому мое уравнение теперь , регрессируемое с помощью , мои корреляции и R ^ 2 вообще не значимы ( ).YTRTdln(YT)dR(T)R2=.004

Мне просто интересно, означает ли этот низкий хоть что-нибудь? Означает ли это, что моя модель не подходит, или я игнорирую когда смотрю на разные данные? Я знаю из данных, что существует существенная корреляция между исходными двумя переменными, но для моей модели мне нужно взглянуть на разностные переменные, так что просто интересно, как это сделать.R2R2

Алекс
источник

Ответы:

16

Простая версия состоит в том, что любые две переменные, которые имеют тенденцию изменяться в одном направлении с течением времени, окажутся коррелированными, независимо от того, есть ли связь между ними или нет. Рассмотрим следующие переменные:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

это просто функция времени, как и у 1 . у 2 является функцией времени и х . Смысл в том, чтобы признать из кода, что действительно существует связь между x и y 2 , и что нет никакой связи между x и y 1 . Теперь посмотрите на следующий рисунок, все три линии выглядят ужасно похожими, не так ли?ИксY1Y2ИксИксY2ИксY1

введите описание изображения здесь

Фактически, значение для отношения между x и y 1 составляет 98%, а R 2р2ИксY1р2ИксY2ИксY1ИксY2Так как же отличить реальное от простого внешнего вида? Вот где возникает различие. Для любых двух переменных, поскольку они обе имеют тенденцию расти со временем, это не очень информативно, но, учитывая, что одна увеличивается на какую-то определенную величину, говорит ли это нам, насколько увеличивается другая? Дифференцирование позволяет нам ответить на этот вопрос. Обратите внимание на следующие два рисунка, графики рассеяния, которые я сделал после дифференцирования всех трех переменных.

введите описание изображения здесь

введите описание изображения здесь

Здесь мы ясно видим, что знание чего-то о том, как выросло значение , говорит нам о том, как сильно возрастает значение y 2 ( R 2 = .43ИксY2р2знак равно0,43ИксY1р2знак равно+0,07р2

Некоторые другие моменты: на рисунках я отмечаю, что это одновременные изменения. В этом нет ничего плохого, и это следует из того, как я решил проблему, но обычно люди интересуются эффектами с некоторой задержкой. (То есть изменение в одном моменте времени приводит к изменению чего-то другого позже.) Во-вторых, вы упоминаете, что взяли журнал одного из ваших рядов. Взятие журнала просто переключает ваши данные с уровней на ставки. И поэтому при разнице вы смотрите на изменения в ставках, а не на изменения в уровнях. Это очень часто, но я не включил этот элемент в свою демонстрацию; это ортогонально темам, которые я обсуждал. Наконец, я хочу признать, что данные временных рядов часто более сложны, чем позволяет моя демонстрация.

Gung - Восстановить Монику
источник
10

@gung предлагает хороший ответ, но я хочу предложить несколько предостережений к тому, что вы предлагаете.

Дифференцирование в основном используется для борьбы с проблемой единичных корней, например, когда процесс представляет собой AR (1) с коэффициентом корреляции 1. Дифференцирование может эффективно использоваться для устранения линейного тренда времени, когда термин ошибки представляет собой белый шум (в в частности, он не имеет последовательной корреляции), как показывает @gung выше. Но если член ошибки имеет последовательную корреляцию с коэффициентом корреляции менее 1 по абсолютной величине, использование дифференцирования для удаления линейного тренда времени приводит к ошибкам с очень сложной структурой. В этом случае сложно получить точные стандартные ошибки и сделать правильные выводы.

В результате лучше всего сначала проверить наличие корневого модуля и, если он обнаружен, исправить это с помощью различий. Затем, проверьте линейный тренд времени. Устранить эту проблему путем тренда. Не делая последнего, вы открыты к пропущенной проблеме типа переменных, которую хорошо иллюстрирует @gung.

Чарли
источник
1
+1 Это хорошее дополнение к моему ответу. Я старался сделать свой ответ простым и интуитивно понятным. Тем не менее, это правда, что сложностей больше, чем я обсуждал, и что они могут быть очень важными. Я должен был признать это в моем последнем абзаце. Спасибо, что сохранил меня честно
gung - Восстановить Монику
1

Когда цель состоит в том, чтобы сформировать / идентифицировать взаимосвязь между двумя или более рядами, может потребоваться отфильтровать стационарную переменную X, чтобы преобразовать ее в шум. Это двухэтапный процесс, требуемая разность и структура ARMA. Чтобы сохранить объективность и избежать смещения спецификации модели, не следует принимать фильтр, а скорее строить этот фильтр, используя автокорреляционную природу стационарной серии X. Затем берется серия Y и применяются все необходимые разностные операторы, чтобы сделать его стационарным, а затем применяется ранее разработанный фильтр к стационарному Y. Эта процедура преследует одну-единственную цель - выявить взаимосвязь между Y и X. Никогда не следует спешить с выводами о необходимых разностных операторах, фильтр ARMA и взаимосвязь между переменными, если только вы не являетесь эконометриком, который знает модель до того, как они наблюдают за данными или если вы говорите непосредственно со всемогущим. Тщательный анализ нормальных требований к ошибкам необходим, чтобы поверить в любой статистический тест, который можно вычислить. Вычисление F тестов / T тестов необходимо, но не достаточно. В заключение я предлагаю вам продолжить тему «Как определить модель передаточной функции». Другие и я обращались к этой теме несколько раз. При желании вы можете просмотреть некоторые ответы на вопросы, к которым прикреплен тег «временной ряд». Как сказал Йоги: «Вы можете наблюдать много, просто читая / наблюдая». Иногда хорошие и простые ответы могут ввести вас в заблуждение, и потенциально слишком сложные / консервативные ответы, подобные моим, могут потребовать от вас более глубокого понимания моделирования временных рядов данных. Как когда-то было сказано: «Тото, мы больше не в Канзасе (то есть сечения)!»

IrishStat
источник