Корреляция объема временных рядов

12

Рассмотрим следующий график:

твиттер и объем торгов

Красная линия (левая ось) описывает объем торгов определенной акции. Синяя линия (правая ось) описывает объем сообщения в Твиттере для этой акции. Например, 9 мая (05-09) было совершено около 1 100 миллионов сделок и 4 000 твитов.

Я хотел бы посчитать, есть ли корреляция между временными сериями, либо в тот же день, либо с лагом - например: объем твита коррелирует с объемом торговли днем ​​позже. Я читаю много статей, которые провели такой анализ, например, корреляцию финансовых временных рядов с деятельностью микроблоггинга , но они не описывают, как такой анализ проводится на практике. В статье говорится следующее:

введите описание изображения здесь

Тем не менее, у меня очень мало опыта в области статистического анализа, и я не знаю, как выполнить это в моей серии. Я использую SPSS (также известный как PASW), и мой вопрос: какие шаги нужно предпринять, чтобы выполнить такой анализ с того момента, когда у меня есть файл данных, лежащий в основе приведенного выше изображения? Является ли такой тест функцией по умолчанию (и как она называется) и / или как я могу ее выполнить?

Любая помощь будет принята с благодарностью :-)

Pr0no
источник
1
Вы можете вычислить их ... вы просто не можете сравнить их с критическими значениями, если две серии не являются
двухполярными
Я вставил сюда необработанные данные: pastebin.com/tZajRae9 Можно ли определить, являются ли серии двунаправленными нормальными? Буду очень признателен за ваш комментарий.
Pr0no
После обнаружения смещений выбросов / уровней в каждой из серий результирующая скорректированная серия демонстрирует модель AR (1). После включения не только регулировки выброса / сдвига уровня И эмпирически идентифицированного AR (1) оба ряда шума были свободны от автокорреляции (в пределах структуры). Кросс-корреляция этих двух суррогатных рядов не указывает на существенную кросс-корреляцию (среди структур), поэтому количество твитов не помогает в прогнозировании объема.
IrishStat

Ответы:

6

Две проверки на двумерную нормальность проверяют три вещи:

  1. проверить, является ли первая серия наблюдений незначительно нормальной,
  2. проверить, является ли вторая серия наблюдений незначительно нормальной,
  3. регрессировать друг на друга и проверить, нормальны ли остатки.

Чтобы проверить нормальность на каждом из этих шагов, используйте обычные графики qq, или вы можете использовать любой тест гипотезы нормальности.

Или же вы можете проверить, является ли каждая возможная линейная комбинация (действительные коэффициенты) двух рядов незначительно нормальной. Это, вероятно, будет сложно, хотя.

Изменить: (6 лет спустя) Я оставлю вышеизложенное для потомков, но обратите внимание, у меня есть более свежий ответ на подобный вопрос здесь .

Тейлор
источник
Я предпринял шаги 1 и 2 и придумал следующие графические схемы: i.imgur.com/SDOTE.png За исключением 3-5 наблюдений, они выглядят незначительно нормальными. Тем не менее, Sig. значение для теста Шапиро-Уилка составляет 0,000, что указывает на значительное отклонение от нормы. С удаленными выбросами, Shapiro Wilk Sig. составляет 0.201 для твитов и 0,004 для сделок. Означает ли это, что корреляция невозможна? Кроме того, это временной ряд - удаление выбросов означает удаление дней в течение исследуемого периода времени. Это принятая практика?
Pr0no
Я также сделал график pp для шага 3. Или, по крайней мере, в моей интерпретации это то, что мне нужно (линейная регрессия с нормальным графиком вероятности): i.imgur.com/EZ3Ic.png Любые комментарии?
Pr0no
Предельные распределения не выглядят нормальными. Существует небольшой раздел по выводу на странице ссылки в Википедии . Удаление выбросов, как правило, не очень хорошая идея. Возможно, загрузите доверительный интервал.
Тейлор
1
Вопрос о корреляции, но ответ о нормальности. Ответ проголосовал несколько раз и принят. Что мне здесь не хватает? ..
Ричард Харди
Двустороннее нормальное распределение является простейшей моделью, которая мотивирует / оправдывает использование корреляции Пирсона.
Тейлор
11

Коэффициент корреляции между временными рядами бесполезен. См. КОРРЕЛЯЦИОННЫЙ КОЭФФИЦИЕНТ - Критические значения для значимости тестирования . На это впервые указал У. Йоль в 1926 году. Йоль, ГУ, 1926 год: «Почему мы иногда получаем бессмысленные корреляции между временными рядами? Исследование по выборке и характеру временных рядов», Журнал Королевского статистического общества 89, 1. –64 . Вы можете захотеть Google "почему мы получаем бессмысленную корреляцию" для получения дополнительной информации.

Причиной этого являются тесты на корреляцию необходимой нормальной сустава. Совместная нормальность требует, чтобы каждая серия была нормальной. Нормальность требует независимости. Чтобы исследовать взаимосвязь между временными рядами, просмотрите раздел « Идентификация передаточной функции» в любой хорошей книге временных рядов, такой как «Анализ временных рядов: одномерные и многомерные методы», автор William WS Wei, David P. Reilly .

Ответ на вызов

С точки зрения ответа на ваш вызов. Некоторым известно ( Yule, GU, 1926 ), что корреляция двух временных рядов может быть ошибочной, особенно если на какой-либо ряд влияют импульсы / сдвиги уровней / сезонные импульсы и / или местные тренды времени. В таком случае я бы взял каждую серию отдельно и определил структуру ARIMA и любые импульсы / сдвиги уровней / сезонные импульсы и / или локальные тренды времени, которые могли бы применяться, и создавали процесс ошибок.

С двумя чистыми процессами ошибок, по одному для каждого из двух исходных рядов, я бы вычислял взаимную корреляцию, которая затем могла бы использоваться для измерения степени ассоциации выше и выше автокорреляционной структуры в каждой серии. Это решение соответствующим образом называют подходом двойного предварительного отбеливания.

Видеть:

IrishStat
источник
Спасибо за ответ. Но говорите ли вы, что по определению статья, на которую я ссылался, не имеет значения? Во-вторых, означает ли это, что по определению две серии никогда не могут быть коррелированы там, где корреляция имеет значение?
Pr0no
3
Корреляция может быть вычислена как простая арифметика. То, что не может быть вычислено (легко), является вероятностью того, что корреляция статистически значима. Вспомните, когда вы впервые познакомились с коэффициентом корреляции. Это было в контексте N независимых выборок, где две характеристики / значения были вычислены для каждого из N независимых образцов, и плотность соединения была двумерной нормальной.
IrishStat
1
Почему это требует совместной нормальности, а не просто одинакового (симметричного?) Распределения? то есть совместное единообразие не будет работать?
naught101
1
@ NAUGHT101. Критические значения для коэффициента корреляции доступны в предположении нормальности сустава и не определены в остальном.
IrishStat
@IrishStat Спасибо за ваш отредактированный ответ. Это ценится. Для проверки нормальности, пожалуйста, смотрите i.imgur.com/SDOTE.png для qq графиков отдельных переменных. После удаления выбросов pp-график, из того, что я понимаю, который измеряет совместную нормальность, выглядит следующим образом i.imgur.com/EZ3Ic.png Есть комментарии?
Pr0no