Гигантский эксцесс?

Я делаю некоторую описательную статистику ежедневных возвратов по фондовым индексам. Т.е. если и являются уровнями индекса в 1-й и 2-й день, соответственно, то - это возвращаемый мной результат (полностью стандартный в литературе). $P_1$ $P_2$ $log_e (\frac{P_2}{P_1})$

Таким образом, эксцесс огромен в некоторых из них. Я смотрю около 15 лет ежедневных данных (около наблюдений временных рядов) $260 * 15$

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

Мой вопрос: есть ли проблемы?

Я хочу провести обширный анализ временных рядов по этим данным - анализ регрессии OLS и Quantile, а также причинно-следственную связь Грейнджера.

И мой ответ (зависимый), и предиктор (регрессор) будут обладать этим гигантским эксцессом. Так что у меня будут эти процессы возврата по обе стороны от уравнения регрессии. Если ненормальность перетекает в помехи, которые только сделают мои стандартные ошибки высокой дисперсией, верно?

(Возможно, мне нужен надежный загрузчик с перекосом?)

1) Вы можете переместить это на сайт quant.stackexchange.com. 2) Что вы подразумеваете под проблемой? Существует целая литература о влиянии выбросов на моменты. Часто это может быть больше искусством, чем наукой.

Джон

"Есть ли проблема?" слишком расплывчато Что вы хотите сделать с этими данными? Ваши огромные куртозы связаны с огромным левым перекосом. Поскольку log (p2 / p1) = log p2 - log p1, огромный перекос влево указывает, что было несколько раз, когда этот показатель был очень низким, то есть p1 намного выше, чем p2, по сравнению с обычным случаем. Может быть, компания обанкротится или что-то в этом роде.

Питер Флом

Извините за это - я исправил свой ОП.

возврат журналов, как правило, перекошен и имеет тяжелый хвост. По этим причинам предпочтительно рассмотреть гибкие распределения, которые могут захватить это поведение. Смотрите, например, 1 и 2 .

Вы должны взглянуть на показатели kutosis, основанные на L-моментах

kjetil b halvorsen

Ответы:

Взгляните на тяжелые хвосты Ламберта W x F или перекошенные распределения Ламберта W x F (попытка отказа от ответственности: я автор). В R они реализованы в пакете LambertW .

Похожие сообщения:

Одним из преимуществ распределения Коши или Стьюдента с фиксированными степенями свободы является то, что параметры хвоста могут быть оценены на основе данных - так что вы можете позволить данным решать, какие моменты существуют. Более того, структура Lambert W x F позволяет вам преобразовывать ваши данные и удалять асимметрию / тяжелые хвосты. Itt Важно отметить , однако , что МНК не требует нормальности или . Тем не менее, для вашей EDA это может быть полезно. $y$ $X$

Вот пример оценок Ламберта W x Гаусса, применяемых к доходности фондов акций.

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

Сводные показатели доходности аналогичны (не настолько экстремальны), как в посте ОП.

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

Большинство серий показывают явно ненормальные характеристики (сильная асимметрия и / или большой эксцесс). Давайте гауссифицируем каждую серию, используя распределение Ламберта W x Гаусса с тяжелыми хвостами (= h Тьюки), используя методы оценки моментов ( IGMM).

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

Графики временного ряда показывают гораздо меньше хвостов, а также более устойчивые изменения во времени (хотя и не постоянные). Повторное вычисление метрик по гауссифицированному временному ряду дает:

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMMАлгоритм достигается именно то , что было изложено сделать: преобразование данных , чтобы иметь эксцесс , равные . Интересно, что все временные ряды теперь имеют отрицательную асимметрию, что соответствует большинству финансовой литературы по временным рядам. Здесь важно отметить, что действует только незначительно, а не совместно (аналогично ). $3$ Gaussianize()scale()

Простая двумерная регрессия

Чтобы рассмотреть влияние гауссификации на OLS, рассмотрите возможность прогнозирования возврата «EASTEU» из возврата «INDIA» и наоборот. Несмотря на то, что мы смотрим на тот же день возвращается между на (не отставали переменных), она по- прежнему обеспечивает значение для прогнозирования фондового рынка данной разницы 6h + время между Индией и Европой. $r_{EASTEU, t}$ $r_{INDIA,t}$

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

Левая диаграмма рассеяния оригинальной серии показывает, что сильные выбросы возникали не в одни и те же дни, а в разное время в Индии и Европе; кроме этого неясно, поддерживает ли облако данных в центре отсутствие корреляции или отрицательной / положительной зависимости. Поскольку выбросы сильно влияют на оценки дисперсии и корреляции, стоит взглянуть на зависимость с удаленными тяжелыми хвостами (правая диаграмма рассеяния). Здесь закономерности гораздо яснее, и становится очевидной позитивная связь между рынком Индии и Восточной Европы.

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

Грейнджер причинность

Тест причинности Грейнджера, основанный на модели (я использую чтобы зафиксировать недельный эффект ежедневных сделок) для «EASTEU» и «ИНДИЯ» отклоняет «отсутствие причинности Грейнджера» в обоих направлениях. $VAR(5)$ $p = 5$

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

Однако для гауссифицированных данных ответ другой! Здесь тест не может отклонить H0, что «ИНДИЯ не является причиной ГРАНДЖЕРА EASTEU», но все же отклоняет, что «EASTEU не вызывает Индию Грейнджера причины». Таким образом, гауссифицированные данные подтверждают гипотезу о том, что европейские рынки стимулируют рынки в Индии на следующий день.

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

Обратите внимание, что мне не ясно, какой из них правильный ответ (если есть), но это интересное наблюдение. Само собой разумеется, что все это тестирование Причинности зависит от того, является ли правильной моделью, что, скорее всего, нет; но я думаю, что это хорошо для иллюстрации. $VAR(5)$

Георг М. Горг
источник

Необходима модель распределения вероятностей, которая лучше соответствует данным. Иногда нет определенных моментов. Одним из таких распределений является распределение Коши. Хотя распределение Коши имеет медиану в качестве ожидаемого значения, стабильного среднего значения и стабильных более высоких моментов нет. Это означает, что когда кто-то собирает данные, возникают фактические измерения, которые выглядят как выбросы, но являются фактическими измерениями. Например, если одно имеет два нормальных распределения F и G со средним нулем, а другое делит F / G, результат не будет иметь первого момента и будет распределением Коши. Таким образом, мы успешно собираем данные, и это выглядит нормально, как 5,3,9,6,2,4, и мы вычисляем среднее значение, которое выглядит стабильным, затем, внезапно, мы получаем значение -32739876, и наше среднее значение становится бессмысленным, но обратите внимание, медиана 4, стабильная. Так обстоит дело с длиннохвостыми распределениями.

Изменить: Вы можете попробовать t-распределение Стьюдента с 2 степенями свободы. Это распределение имеет более длинные хвосты, чем нормальное распределение, асимметрия и эксцесс нестабильны ( Sic , не существуют), но среднее значение и дисперсия определены, т.е. являются стабильными.

Следующее редактирование: Одной из возможностей может быть использование регрессии Тейла. В любом случае, это мысль, потому что Тейл будет хорошо работать независимо от того, как выглядят хвосты. Theil может быть сделано MLR (множественная линейная регрессия с использованием средних наклонов). Я никогда не делал Theil для подбора данных гистограммы. Но я сделал Theil с вариантом складного ножа, чтобы установить доверительные интервалы. Преимущество этого состоит в том, что Theil не важно, какие формы распределения, и ответы, как правило, менее предвзяты, чем с OLS, потому что обычно OLS используется, когда существует проблемная независимая дисперсия оси. Не то, чтобы Тейл был совершенно не приглушен, это срединный уклон. Ответы также имеют другое значение: он находит лучшее согласие между зависимой и независимой переменными, где OLS находит наименьший предиктор ошибок зависимой переменной,

деревенщина
источник

Хорошая информация, спасибо. Вы знаете некоторые (довольно компактные) ресурсы, чтобы читать дальше? У меня совершенно другая проблема с длинным хвостом, но я думаю, что мои данные - это просто смесь разных сценариев.

флешпост

Я использую Mathematica, и подгонка распределений, а также определение распределений по частям на этом языке не сложны. Например, посмотрите на это . В общем, случайные величины добавляются путем свертки, но на практике свертка функций плотности является сложной задачей. Некоторые люди просто по частям определяют функции плотности для смешанных переменных, например, добавляя легкий экспоненциальный хвост к более тяжелому подвергнутому цензуре гамма-распределению после максимального значения для моделирования частоты землетрясения. @flaschenpost

Карл