Я делаю некоторую описательную статистику ежедневных возвратов по фондовым индексам. Т.е. если и являются уровнями индекса в 1-й и 2-й день, соответственно, то - это возвращаемый мной результат (полностью стандартный в литературе).P 2 l o g e ( P 2
Таким образом, эксцесс огромен в некоторых из них. Я смотрю около 15 лет ежедневных данных (около наблюдений временных рядов)
means sds mins maxs skews kurts
ARGENTINA -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA 0.00003 0.00640 -0.03845 0.04621 0.19614 2.36104
CZECH.REPUBLIC 0.00008 0.00800 -0.08289 0.05236 -0.16920 5.73205
FINLAND 0.00005 0.00639 -0.03845 0.04622 0.19038 2.37008
HUNGARY -0.00019 0.00880 -0.06301 0.05208 -0.10580 4.20463
IRELAND 0.00003 0.00641 -0.03842 0.04621 0.18937 2.35043
ROMANIA -0.00041 0.00789 -0.14877 0.09353 -1.73314 44.87401
SWEDEN 0.00004 0.00766 -0.03552 0.05537 0.22299 3.52373
UNITED.KINGDOM 0.00001 0.00587 -0.03918 0.04473 -0.03052 4.23236
-0.00007 0.00745 -0.09124 0.06405 -1.82381 63.20596
AUSTRALIA 0.00009 0.00861 -0.08831 0.06702 -0.74937 11.80784
CHINA -0.00002 0.00072 -0.40623 0.02031 6.26896 175.49667
HONG.KONG 0.00000 0.00031 -0.00237 0.00627 2.73415 56.18331
INDIA -0.00011 0.00336 -0.03613 0.03063 -0.22301 10.12893
INDONESIA -0.00031 0.01672 -0.24295 0.19268 -2.09577 54.57710
JAPAN 0.00008 0.00709 -0.03563 0.06591 0.57126 5.16182
MALAYSIA -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665
Мой вопрос: есть ли проблемы?
Я хочу провести обширный анализ временных рядов по этим данным - анализ регрессии OLS и Quantile, а также причинно-следственную связь Грейнджера.
И мой ответ (зависимый), и предиктор (регрессор) будут обладать этим гигантским эксцессом. Так что у меня будут эти процессы возврата по обе стороны от уравнения регрессии. Если ненормальность перетекает в помехи, которые только сделают мои стандартные ошибки высокой дисперсией, верно?
(Возможно, мне нужен надежный загрузчик с перекосом?)
Ответы:
Взгляните на тяжелые хвосты Ламберта W x F или перекошенные распределения Ламберта W x F (попытка отказа от ответственности: я автор). В R они реализованы в пакете LambertW .
Похожие сообщения:
Одним из преимуществ распределения Коши или Стьюдента с фиксированными степенями свободы является то, что параметры хвоста могут быть оценены на основе данных - так что вы можете позволить данным решать, какие моменты существуют. Более того, структура Lambert W x F позволяет вам преобразовывать ваши данные и удалять асимметрию / тяжелые хвосты. Itt Важно отметить , однако , что МНК не требует нормальности или . Тем не менее, для вашей EDA это может быть полезно.Xy X
Вот пример оценок Ламберта W x Гаусса, применяемых к доходности фондов акций.
Сводные показатели доходности аналогичны (не настолько экстремальны), как в посте ОП.
Большинство серий показывают явно ненормальные характеристики (сильная асимметрия и / или большой эксцесс). Давайте гауссифицируем каждую серию, используя распределение Ламберта W x Гаусса с тяжелыми хвостами (= h Тьюки), используя методы оценки моментов (
IGMM
).Графики временного ряда показывают гораздо меньше хвостов, а также более устойчивые изменения во времени (хотя и не постоянные). Повторное вычисление метрик по гауссифицированному временному ряду дает:
IGMM
Алгоритм достигается именно то , что было изложено сделать: преобразование данных , чтобы иметь эксцесс , равные . Интересно, что все временные ряды теперь имеют отрицательную асимметрию, что соответствует большинству финансовой литературы по временным рядам. Здесь важно отметить, что действует только незначительно, а не совместно (аналогично ).Gaussianize()
scale()
Простая двумерная регрессия
Чтобы рассмотреть влияние гауссификации на OLS, рассмотрите возможность прогнозирования возврата «EASTEU» из возврата «INDIA» и наоборот. Несмотря на то, что мы смотрим на тот же день возвращается между на (не отставали переменных), она по- прежнему обеспечивает значение для прогнозирования фондового рынка данной разницы 6h + время между Индией и Европой. R I N D I A , TrEASTEU,t rINDIA,t
Левая диаграмма рассеяния оригинальной серии показывает, что сильные выбросы возникали не в одни и те же дни, а в разное время в Индии и Европе; кроме этого неясно, поддерживает ли облако данных в центре отсутствие корреляции или отрицательной / положительной зависимости. Поскольку выбросы сильно влияют на оценки дисперсии и корреляции, стоит взглянуть на зависимость с удаленными тяжелыми хвостами (правая диаграмма рассеяния). Здесь закономерности гораздо яснее, и становится очевидной позитивная связь между рынком Индии и Восточной Европы.
Грейнджер причинность
Тест причинности Грейнджера, основанный на модели (я использую чтобы зафиксировать недельный эффект ежедневных сделок) для «EASTEU» и «ИНДИЯ» отклоняет «отсутствие причинности Грейнджера» в обоих направлениях.p = 5VAR(5) p=5
Однако для гауссифицированных данных ответ другой! Здесь тест не может отклонить H0, что «ИНДИЯ не является причиной ГРАНДЖЕРА EASTEU», но все же отклоняет, что «EASTEU не вызывает Индию Грейнджера причины». Таким образом, гауссифицированные данные подтверждают гипотезу о том, что европейские рынки стимулируют рынки в Индии на следующий день.
Обратите внимание, что мне не ясно, какой из них правильный ответ (если есть), но это интересное наблюдение. Само собой разумеется, что все это тестирование Причинности зависит от того, является ли правильной моделью, что, скорее всего, нет; но я думаю, что это хорошо для иллюстрации.VAR(5)
источник
Необходима модель распределения вероятностей, которая лучше соответствует данным. Иногда нет определенных моментов. Одним из таких распределений является распределение Коши. Хотя распределение Коши имеет медиану в качестве ожидаемого значения, стабильного среднего значения и стабильных более высоких моментов нет. Это означает, что когда кто-то собирает данные, возникают фактические измерения, которые выглядят как выбросы, но являются фактическими измерениями. Например, если одно имеет два нормальных распределения F и G со средним нулем, а другое делит F / G, результат не будет иметь первого момента и будет распределением Коши. Таким образом, мы успешно собираем данные, и это выглядит нормально, как 5,3,9,6,2,4, и мы вычисляем среднее значение, которое выглядит стабильным, затем, внезапно, мы получаем значение -32739876, и наше среднее значение становится бессмысленным, но обратите внимание, медиана 4, стабильная. Так обстоит дело с длиннохвостыми распределениями.
Изменить: Вы можете попробовать t-распределение Стьюдента с 2 степенями свободы. Это распределение имеет более длинные хвосты, чем нормальное распределение, асимметрия и эксцесс нестабильны ( Sic , не существуют), но среднее значение и дисперсия определены, т.е. являются стабильными.
Следующее редактирование: Одной из возможностей может быть использование регрессии Тейла. В любом случае, это мысль, потому что Тейл будет хорошо работать независимо от того, как выглядят хвосты. Theil может быть сделано MLR (множественная линейная регрессия с использованием средних наклонов). Я никогда не делал Theil для подбора данных гистограммы. Но я сделал Theil с вариантом складного ножа, чтобы установить доверительные интервалы. Преимущество этого состоит в том, что Theil не важно, какие формы распределения, и ответы, как правило, менее предвзяты, чем с OLS, потому что обычно OLS используется, когда существует проблемная независимая дисперсия оси. Не то, чтобы Тейл был совершенно не приглушен, это срединный уклон. Ответы также имеют другое значение: он находит лучшее согласие между зависимой и независимой переменными, где OLS находит наименьший предиктор ошибок зависимой переменной,
источник