Рассмотрим следующий график:
Красная линия (левая ось) описывает объем торгов определенной акции. Синяя линия (правая ось) описывает объем сообщения в Твиттере для этой акции. Например, 9 мая (05-09) было совершено около 1 100 миллионов сделок и 4 000 твитов.
Я хотел бы посчитать, есть ли корреляция между временными сериями, либо в тот же день, либо с лагом - например: объем твита коррелирует с объемом торговли днем позже. Я читаю много статей, которые провели такой анализ, например, корреляцию финансовых временных рядов с деятельностью микроблоггинга , но они не описывают, как такой анализ проводится на практике. В статье говорится следующее:
Тем не менее, у меня очень мало опыта в области статистического анализа, и я не знаю, как выполнить это в моей серии. Я использую SPSS (также известный как PASW), и мой вопрос: какие шаги нужно предпринять, чтобы выполнить такой анализ с того момента, когда у меня есть файл данных, лежащий в основе приведенного выше изображения? Является ли такой тест функцией по умолчанию (и как она называется) и / или как я могу ее выполнить?
Любая помощь будет принята с благодарностью :-)
источник
Ответы:
Две проверки на двумерную нормальность проверяют три вещи:
Чтобы проверить нормальность на каждом из этих шагов, используйте обычные графики qq, или вы можете использовать любой тест гипотезы нормальности.
Или же вы можете проверить, является ли каждая возможная линейная комбинация (действительные коэффициенты) двух рядов незначительно нормальной. Это, вероятно, будет сложно, хотя.
Изменить: (6 лет спустя) Я оставлю вышеизложенное для потомков, но обратите внимание, у меня есть более свежий ответ на подобный вопрос здесь .
источник
Коэффициент корреляции между временными рядами бесполезен. См. КОРРЕЛЯЦИОННЫЙ КОЭФФИЦИЕНТ - Критические значения для значимости тестирования . На это впервые указал У. Йоль в 1926 году. Йоль, ГУ, 1926 год: «Почему мы иногда получаем бессмысленные корреляции между временными рядами? Исследование по выборке и характеру временных рядов», Журнал Королевского статистического общества 89, 1. –64 . Вы можете захотеть Google "почему мы получаем бессмысленную корреляцию" для получения дополнительной информации.
Причиной этого являются тесты на корреляцию необходимой нормальной сустава. Совместная нормальность требует, чтобы каждая серия была нормальной. Нормальность требует независимости. Чтобы исследовать взаимосвязь между временными рядами, просмотрите раздел « Идентификация передаточной функции» в любой хорошей книге временных рядов, такой как «Анализ временных рядов: одномерные и многомерные методы», автор William WS Wei, David P. Reilly .
Ответ на вызов
С точки зрения ответа на ваш вызов. Некоторым известно ( Yule, GU, 1926 ), что корреляция двух временных рядов может быть ошибочной, особенно если на какой-либо ряд влияют импульсы / сдвиги уровней / сезонные импульсы и / или местные тренды времени. В таком случае я бы взял каждую серию отдельно и определил структуру ARIMA и любые импульсы / сдвиги уровней / сезонные импульсы и / или локальные тренды времени, которые могли бы применяться, и создавали процесс ошибок.
С двумя чистыми процессами ошибок, по одному для каждого из двух исходных рядов, я бы вычислял взаимную корреляцию, которая затем могла бы использоваться для измерения степени ассоциации выше и выше автокорреляционной структуры в каждой серии. Это решение соответствующим образом называют подходом двойного предварительного отбеливания.
Видеть:
источник