В проблеме, над которой я работаю, у меня есть две случайные переменные, X и Y. Мне нужно выяснить, насколько тесно коррелированы две из них, но они имеют разные измерения. Ранг пространства строк X равен 4350, а ранг пространства строк Y существенно больше, в десятки тысяч. И X, и Y имеют одинаковое количество столбцов.
Мне нужна мера корреляции между двумя переменными, и r Пирсона требует, чтобы X и Y имели одинаковую размерность (по крайней мере, R требует, чтобы два rv были).
Есть ли у меня надежда на установление корреляции между этими двумя или я должен найти какой-нибудь способ обрезать наблюдения Y?
EDIT
Добавление информации из комментариев, которые должны быть в вопросе.
Я полагаю, я забыл упомянуть об этом. X и Y - цены на акции. Компания X была публичной в течение гораздо более короткого периода времени, чем Y. Я хотел бы рассказать, насколько коррелированы цены X и Y. Я определенно мог бы получить корреляцию за период времени, когда существуют X и Y. Я хотел бы знать, дала ли мне какая-либо дополнительная информация, если я знаю, что цены на акции в течение нескольких дополнительных лет Y, которых не было, не существует.
источник
Ответы:
Никакие вменения, анализ временных рядов, модели GARCH, интерполяция, экстраполяция или другие причудливые алгоритмы не сделают ничего, чтобы создать информацию там, где ее нет (хотя они могут создать эту иллюзию ;-). История цены Y до того, как Х стала публичной, бесполезна для оценки их последующей корреляции.
Иногда (часто перед подготовкой к IPO) аналитики используют внутреннюю учетную информацию (или записи о сделках с частными акциями), чтобы ретроспективно реконструировать гипотетические цены на акции X до того, как они станут публичными. Можно предположить, что такая информация может быть использована для повышения оценки корреляции, но, учитывая крайне предварительный характер таких обратных передач, я сомневаюсь, что эти усилия окажутся полезными, за исключением случаев, когда цены для X доступны всего несколько дней или недель.
источник
Таким образом, проблема заключается в отсутствии данных (не все Y имеют соответствующий X, где соответствие осуществляется через моменты времени). Я не думаю, что здесь есть что-то большее, чем просто выбросить Y, для которой у вас нет X, и рассчитать корреляцию для полных пар.
Вы можете прочитать финансовые временные ряды, хотя в данный момент у меня нет хороших справочных материалов (идеи, кто-нибудь?). Цены на акции часто демонстрируют изменчивую во времени волатильность, которую можно смоделировать, например, с помощью GARCH . Вполне возможно, что ваши два временных ряда X и Y демонстрируют положительные корреляции в периоды низкой волатильности (когда экономика растет, все цены на акции имеют тенденцию к росту), но отрицательные корреляции, когда общая волатильность высока (9 сентября, когда авиалинии заправлялись, пока деньги сбежали на более безопасные инвестиции). Так что просто вычисление общей корреляции может быть слишком зависимым от ваших временных рамок наблюдения.
ОБНОВЛЕНИЕ: Я думаю, что вы можете посмотреть на VAR (вектор авторегрессии) моделей.
источник
@Jeromy Anglim определил это правильно. Наличие дополнительной информации, когда существует только один из временных рядов, не даст здесь никакой ценности. И в принципе, данные должны отбираться в одно и то же время, чтобы они имели смысл с использованием традиционных мер корреляции.
В качестве более общей проблемы я хотел бы добавить, что существуют методы для работы с нерегулярно расположенными данными временных рядов. Вы можете искать "нерегулярно корреляцию временных рядов". Часть недавней работы была проделана над «Реализованной волатильностью и корреляцией» (Andersen, Bollerslev, Diebold и Labys 1999) с использованием высокочастотных данных.
источник
Учитывая дополнительную информацию в ваших комментариях, я бы рекомендовал взглянуть на две взаимосвязи. Первым были бы общие периоды времени, когда компании были вокруг. Итак, если бы это было около 2 лет назад, вы бы просто сбросили эти данные и посмотрели на остальные. Второй будет относительные периоды времени. Во втором вы коррелируете не фактическое время, а время, измеренное с момента публикации компании.
На первые будут оказывать сильное влияние общие экономические силы, разделяемые в течение того же периода времени. Последний будет зависеть от свойств, разделяемых компаниями, поскольку они меняются после IPO.
источник
Другим способом решения такой проблемы является исчисление отсутствующих данных для более коротких рядов с использованием модели временных рядов, которая может иметь или не иметь смысла в конкретном контексте.
В вашем контексте вложение цен на акции в прошлое означало бы, что вы задаете следующий контр-фактический вопрос: какой была бы цена акций компании X, если бы она стала публичной n лет назад, а не когда она стала публичной? Такое вменение данных потенциально может быть сделано с учетом цен акций соответствующих компаний, общих тенденций рынка и т. Д. Но такой анализ может не иметь смысла или может не потребоваться с учетом целей вашего проекта.
источник
Ну, многое зависит от ваших предположений. Если вы предполагаете, что данные являются стационарными, то больше данных для первого ряда даст вам более точную оценку его волатильности. Эта оценка может быть использована для улучшения оценки корреляции. Таким образом, следующее утверждение неверно:
«История цены Y до того, как Х стала публичной, бесполезна для оценки их последующей корреляции»
источник
Это звучит как проблема для алгоритма машинного обучения. Поэтому я бы попытался выяснить ряд особенностей, которые описывают определенный аспект тренда и обучаются этому. Вся теория машинного обучения немного сложна для этого блока ответов, но вам было бы полезно прочитать его.
Но, честно говоря, я думаю, что это уже существует. Там, где можно заработать деньги, люди вкладывают свои мысли в это.
источник