У меня есть 2 временных ряда (оба гладких), которые я хотел бы взаимно коррелировать, чтобы увидеть, насколько они коррелированы.
Я намерен использовать коэффициент корреляции Пирсона. Это уместно?
Мой второй вопрос - я могу выбрать 2 временных ряда так, как мне нравится. т.е. я могу выбрать, сколько точек данных я буду использовать. Повлияет ли это на коэффициент корреляции, который выводится? Нужно ли мне это учитывать?
Для иллюстрации
option(i)
[1, 4, 7, 10] & [6, 9, 6, 9, 6]
option(ii)
[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]
time-series
correlation
pearson-r
smoothing
user1551817
источник
источник
Ответы:
Корреляция Пирсона будет использоваться , чтобы посмотреть на корреляции между сериями ... но , будучи временной ряд корреляционная смотрится на разных лагов - в функции взаимной корреляции .
На взаимную корреляцию влияет зависимость внутри ряда, поэтому во многих случаях сначала следует удалить зависимость внутри ряда. Таким образом, чтобы использовать эту корреляцию, а не сглаживать ряды, на самом деле чаще (потому что это имеет смысл) смотреть на зависимость между остатками - грубая часть, которая остается после того, как найдена подходящая модель для переменных.
Возможно, вы захотите начать с некоторых основных ресурсов по моделям временных рядов, прежде чем углубиться в попытки выяснить, является ли корреляция Пирсона между (предположительно) нестационарными, сглаженными рядами интерпретируемой.
В частности, вы, вероятно, захотите посмотреть на это явление здесь . [Во временных рядах это иногда называют ложной корреляцией , хотя в статье Википедии о ложной корреляции узко рассматривается использование термина таким образом, который, по-видимому, исключает его использование. Вы, вероятно, найдете больше информации по обсуждаемым здесь вопросам, вместо того чтобы искать ложную регрессию .]
[Редактировать - пейзаж Википедии постоянно меняется; вышеуказанный пункт вероятно, следует пересмотреть, чтобы отразить то, что там сейчас.]
например, посмотреть некоторые обсуждения
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (вступительная цитата Йоля в статье, представленной в 1925 году, но опубликованной в следующем году, достаточно хорошо описывает проблему)
Кристос Агиаклогу и Апостолос Цимпанос, Ложные корреляции для стационарных процессов AR (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (это показывает, что вы даже проблема между стационарными рядами, отсюда и тенденция к белению)
Классическая ссылка Yule, (1926) [1] упоминается выше.
Вы также можете найти обсуждение здесь полезным, а также обсуждение здесь
-
Использовать корреляцию Пирсона осмысленно между временными рядами сложно, а иногда удивительно тонко.
Обратите внимание на мой предыдущий комментарий об узком использовании термина «ложная корреляция» в статье Википедии.
Смысл ложной корреляции состоит в том, что ряды могут казаться коррелированными, но сама корреляция не имеет смысла. Представьте, что два человека бросают две разные монеты, считая количество голов до минус количество хвостов и стоимость их рядов.
(Так что, если человек 1 бросает у него есть 3-1 = 2 для значения на 4-м временном шаге, и его серия идет в )HTHH ... 1 , 0 , 1 , 2 , . , ,
Очевидно, что нет никакой связи между двумя сериями. Ясно, что ни один не может сказать вам первое о другом!
Но посмотрите на вид корреляций между парами монет:
Если бы я не сказал вам, что это были, а вы взяли какую-нибудь пару из этих серий, это были бы впечатляющие корреляции, не так ли?
Но они все бессмысленны . Совершенно фальшивый Ни одна из трех пар на самом деле не имеет более положительного или отрицательного отношения друг к другу, чем любая другая, - это просто кумулятивный шум . Поддельность это не только предсказание, все понятие о рассмотрении связи между рядами без учета зависимости внутригрупповых серий неуместно.
Все, что у вас здесь есть, это зависимость внутри серии . Там нет никакого фактического отношения кросс-серии.
Как только вы правильно решите проблему, которая делает эти ряды автоматически зависимыми - все они интегрированы ( случайные блуждания Бернулли ), так что вам нужно их различать - исчезает «кажущаяся» связь (наибольшая абсолютная корреляция между сериями из трех 0,048).
То, что это говорит вам, является правдой - кажущаяся связь - это всего лишь иллюзия, вызванная зависимостью внутри ряда.
На ваш вопрос был задан вопрос «как правильно использовать корреляцию Пирсона с временными рядами» - поэтому, пожалуйста, поймите: если есть зависимость внутри ряда, и вы сначала не справляетесь с ней, вы не будете ее правильно использовать.
Кроме того, сглаживание не уменьшит проблему последовательной зависимости; совсем наоборот - это делает его еще хуже! Вот корреляции после сглаживания (по умолчанию лёссовое сглаживание - ряда против индекса - выполнено в R):
Они все пошли дальше от 0. Они все еще ничего, кроме бессмысленного шума , хотя теперь это сглаженный, накопленный шум. (Сглаживая, мы уменьшаем изменчивость в ряду, который мы помещаем в расчет корреляции, поэтому, возможно, корреляция возрастает.)
[1]: Yule, GU (1926) «Почему мы иногда получаем бессмысленные корреляции между временными рядами?» J.Roy.Stat.Soc. , 89 , 1 , с. 1-63
источник
Чтобы завершить ответ Glen_b и его / ее пример на случайных блужданиях, если вы действительно хотите использовать корреляцию Пирсона для такого рода временных рядов , вы должны сначала их дифференцировать, затем рассчитать коэффициент корреляции по приращениям ( ), которые (в случае случайных блужданий) независимы и одинаково распределены. Я предлагаю вам использовать корреляцию Спирмена или Кендалла, поскольку они более устойчивы, чем коэффициент Пирсона. Пирсон измеряет линейную зависимость, тогда как мера Спирмена и Кендалла инвариантна монотонными преобразованиями ваших переменных. X t = S t - S t - 1(St)1≤t≤T Xt=St−St−1
Кроме того, представьте, что два временных ряда сильно зависят, скажем, движутся вместе вверх и вниз вместе, но один подвергается иногда сильным вариациям, а другой - всегда умеренным, корреляция Пирсона будет довольно низкой, в отличие от спирмена и кендалла (которые лучше оценки зависимости между вашими временными рядами).
Для тщательного изучения этого вопроса и лучшего понимания зависимости вы можете взглянуть на Теорию Копулы и на применение к временным рядам .
источник
Данные временного ряда обычно зависят от времени. Однако корреляция Пирсона подходит для независимых данных. Эта проблема похожа на так называемую ложную регрессию. Коэффициент, вероятно, будет очень значительным, но это происходит только из-за временной тенденции данных, которые влияют на оба ряда. Я рекомендую смоделировать данные и затем попытаться выяснить, дает ли моделирование одинаковые результаты для обеих серий. Однако использование коэффициента корреляции Пирсона, скорее всего, даст неверные результаты для интерпретации структуры зависимости.
источник