Корреляция между двумя переменными неравного размера

9

В проблеме, над которой я работаю, у меня есть две случайные переменные, X и Y. Мне нужно выяснить, насколько тесно коррелированы две из них, но они имеют разные измерения. Ранг пространства строк X равен 4350, а ранг пространства строк Y существенно больше, в десятки тысяч. И X, и Y имеют одинаковое количество столбцов.

Мне нужна мера корреляции между двумя переменными, и r Пирсона требует, чтобы X и Y имели одинаковую размерность (по крайней мере, R требует, чтобы два rv были).

Есть ли у меня надежда на установление корреляции между этими двумя или я должен найти какой-нибудь способ обрезать наблюдения Y?

 EDIT

Добавление информации из комментариев, которые должны быть в вопросе.

Я полагаю, я забыл упомянуть об этом. X и Y - цены на акции. Компания X была публичной в течение гораздо более короткого периода времени, чем Y. Я хотел бы рассказать, насколько коррелированы цены X и Y. Я определенно мог бы получить корреляцию за период времени, когда существуют X и Y. Я хотел бы знать, дала ли мне какая-либо дополнительная информация, если я знаю, что цены на акции в течение нескольких дополнительных лет Y, которых не было, не существует.

Кристофер Аден
источник
2
Это не похоже на ваши наблюдения (или «случаи»), в которых вы наблюдаете реализацию X и Y. Как вы узнаете, какой X связан с каким Y?
Стефан Коласса
1
Я полагаю, я забыл упомянуть об этом. X и Y - цены на акции. Компания X была публичной в течение гораздо более короткого периода времени, чем Y. Я хотел бы рассказать, насколько коррелированы цены X и Y. Я определенно мог бы получить корреляцию за период времени, когда существуют X и Y. Я хотел бы знать, дала ли мне какая-либо дополнительная информация, если я узнал, что цены на акции в течение нескольких дополнительных лет Y не существовали, что X не существует.
Кристофер Аден
2
@Christopher Я бы порекомендовал вам обновить ваш вопрос, чтобы отразить ваш комментарий выше. Кроме того, чтобы корреляция была значимой, требуется больше, чем просто равные измерения; фактические измерения должны происходить из одних и тех же случаев, которые в вашем случае предположительно совпадают по времени.
Jeromy Anglim
2
Я второй комментарий Джерома по обновлению вопроса ...
Стефан Коласса
Другой вопрос: вы упоминаете, что X и Y имеют одинаковое количество столбцов. Будет ли это один по одному? Или у вас есть несколько серий для X и Y (цены на разных биржах или что-то подобное)?
Стефан Коласса

Ответы:

10

Никакие вменения, анализ временных рядов, модели GARCH, интерполяция, экстраполяция или другие причудливые алгоритмы не сделают ничего, чтобы создать информацию там, где ее нет (хотя они могут создать эту иллюзию ;-). История цены Y до того, как Х стала публичной, бесполезна для оценки их последующей корреляции.

Иногда (часто перед подготовкой к IPO) аналитики используют внутреннюю учетную информацию (или записи о сделках с частными акциями), чтобы ретроспективно реконструировать гипотетические цены на акции X до того, как они станут публичными. Можно предположить, что такая информация может быть использована для повышения оценки корреляции, но, учитывая крайне предварительный характер таких обратных передач, я сомневаюсь, что эти усилия окажутся полезными, за исключением случаев, когда цены для X доступны всего несколько дней или недель.

Whuber
источник
Пояснение: я не упомянул GARCH для решения проблемы отсутствующих данных (что, конечно, не имело бы смысла), но для улучшения простого вычисления корреляции между временными рядами в моменты времени, когда существуют оба.
Стефан Коласса
@ Стефан: ОК. Я упомянул это главным образом, чтобы показать, что я не игнорировал тебя!
whuber
1
Спасибо тебе, Вабер. Это соответствует тому, что я искал. Я не думаю, что обратное вещание будет иметь большую пользу (или выполнимость), чтобы добавить пару дополнительных недель X, когда взаимные временные рамки между X и Y уже около 16 лет.
Кристофер Аден
2
@ Кристофер: !! С 16 лет (ежедневных закрытий?) У вас достаточно данных не только для того, чтобы найти корреляцию, но и для изучения того, как она менялась с течением времени. (Это, я считаю, дух ответа @Stephan Kolassa.)
whuber
Согласен. Использование методов, чтобы выяснить, какие значения X принял бы до своего IPO, кажется подверженным ошибкам. Я также могу подвергнуть сомнению актуальность данных, которым 16 лет, для прогнозирования современных тенденций.
Кристофер Аден
10

Таким образом, проблема заключается в отсутствии данных (не все Y имеют соответствующий X, где соответствие осуществляется через моменты времени). Я не думаю, что здесь есть что-то большее, чем просто выбросить Y, для которой у вас нет X, и рассчитать корреляцию для полных пар.

Вы можете прочитать финансовые временные ряды, хотя в данный момент у меня нет хороших справочных материалов (идеи, кто-нибудь?). Цены на акции часто демонстрируют изменчивую во времени волатильность, которую можно смоделировать, например, с помощью GARCH . Вполне возможно, что ваши два временных ряда X и Y демонстрируют положительные корреляции в периоды низкой волатильности (когда экономика растет, все цены на акции имеют тенденцию к росту), но отрицательные корреляции, когда общая волатильность высока (9 сентября, когда авиалинии заправлялись, пока деньги сбежали на более безопасные инвестиции). Так что просто вычисление общей корреляции может быть слишком зависимым от ваших временных рамок наблюдения.

ОБНОВЛЕНИЕ: Я думаю, что вы можете посмотреть на VAR (вектор авторегрессии) моделей.

Стефан Коласса
источник
Для получения базовых ссылок на финансовые временные ряды вы можете посмотреть мой ответ здесь: stats.stackexchange.com/questions/328/… . Текст Цай является одним из самых популярных.
Шейн
2

@Jeromy Anglim определил это правильно. Наличие дополнительной информации, когда существует только один из временных рядов, не даст здесь никакой ценности. И в принципе, данные должны отбираться в одно и то же время, чтобы они имели смысл с использованием традиционных мер корреляции.

В качестве более общей проблемы я хотел бы добавить, что существуют методы для работы с нерегулярно расположенными данными временных рядов. Вы можете искать "нерегулярно корреляцию временных рядов". Часть недавней работы была проделана над «Реализованной волатильностью и корреляцией» (Andersen, Bollerslev, Diebold и Labys 1999) с использованием высокочастотных данных.

Шейн
источник
1

Учитывая дополнительную информацию в ваших комментариях, я бы рекомендовал взглянуть на две взаимосвязи. Первым были бы общие периоды времени, когда компании были вокруг. Итак, если бы это было около 2 лет назад, вы бы просто сбросили эти данные и посмотрели на остальные. Второй будет относительные периоды времени. Во втором вы коррелируете не фактическое время, а время, измеренное с момента публикации компании.

На первые будут оказывать сильное влияние общие экономические силы, разделяемые в течение того же периода времени. Последний будет зависеть от свойств, разделяемых компаниями, поскольку они меняются после IPO.

Джон
источник
0

Другим способом решения такой проблемы является исчисление отсутствующих данных для более коротких рядов с использованием модели временных рядов, которая может иметь или не иметь смысла в конкретном контексте.

В вашем контексте вложение цен на акции в прошлое означало бы, что вы задаете следующий контр-фактический вопрос: какой была бы цена акций компании X, если бы она стала публичной n лет назад, а не когда она стала публичной? Такое вменение данных потенциально может быть сделано с учетом цен акций соответствующих компаний, общих тенденций рынка и т. Д. Но такой анализ может не иметь смысла или может не потребоваться с учетом целей вашего проекта.


источник
0

Ну, многое зависит от ваших предположений. Если вы предполагаете, что данные являются стационарными, то больше данных для первого ряда даст вам более точную оценку его волатильности. Эта оценка может быть использована для улучшения оценки корреляции. Таким образом, следующее утверждение неверно:

«История цены Y до того, как Х стала публичной, бесполезна для оценки их последующей корреляции»


источник
Я думал об этом. Теоретически может работать, но будет очень ненадежным, поэтому лучше избегать.
Кьетил б Халворсен
-1

Это звучит как проблема для алгоритма машинного обучения. Поэтому я бы попытался выяснить ряд особенностей, которые описывают определенный аспект тренда и обучаются этому. Вся теория машинного обучения немного сложна для этого блока ответов, но вам было бы полезно прочитать его.

Но, честно говоря, я думаю, что это уже существует. Там, где можно заработать деньги, люди вкладывают свои мысли в это.

Ханс против Арша
источник