Почему случайные прогулки взаимосвязаны?

27

Я заметил, что в среднем абсолютное значение коэффициента корреляции Пирсона является константой, близкой к любой паре независимых случайных блужданий, независимо от длины блуждания.0.560.42

Может кто-нибудь объяснить это явление?

Я ожидал, что корреляции уменьшатся с увеличением длины прогулки, как и в любой случайной последовательности.

Для своих экспериментов я использовал случайные прогулки по Гауссу со средним шагом 0 и стандартным отклонением шага 1.

ОБНОВИТЬ:

Я забыл центрировать данные, поэтому 0.56вместо 0.42.

Вот скрипт Python для вычисления корреляций:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))
Адам
источник
Моя первая мысль заключается в том, что по мере того, как прогулка становится длиннее, можно получить значения с большей величиной, и на этом накапливается корреляция.
Джон Пол
Но это будет работать с любой случайной последовательностью, если я правильно вас понимаю, но постоянные корреляции имеют только случайные прогулки.
Адам
4
Это не просто «случайная последовательность»: корреляции чрезвычайно высоки, потому что каждый член находится всего в одном шаге от предыдущего. Также обратите внимание, что вычисляемый вами коэффициент корреляции - это не коэффициент случайных переменных: это коэффициент корреляции для последовательностей (рассматриваемый просто как парные данные), который составляет большую формулу, включающую различные квадраты и различия всех условия в последовательности.
whuber
10
Вы говорите о корреляции между случайными прогулками (между сериями, а не внутри одной серии)? Если это так, то это потому, что ваши независимые случайные блуждания интегрированы, но не связаны друг с другом, что является хорошо известной ситуацией, когда появляются ложные корреляции.
Крис Хауг
8
Если вы берете первое различие, вы не найдете никакой корреляции. Отсутствие стационарности является ключом здесь.
Пол

Ответы:

24

Ваши независимые процессы не взаимосвязаны! Если и Y тXtYt являются независимыми случайными блужданиями:

  • Коэффициент корреляции безусловный по времени не существует. (Не говори о .)Corr(X,Y)
  • Для любого времени , Corr ( X t , Y tt , действительно 0.Corr(Xt,Yt)
  • Но выборочная статистика на основе временных рядов средних , ни к чему не приведет! Выборочный коэффициент корреляции, который вы рассчитали на основе усреднения нескольких наблюдений по времени, не имеет смысла.

Интуитивно, вы можете догадаться (неправильно), что:

  1. Независимость между двумя процессами и { Y t } подразумевает, что они имеют нулевую корреляцию. (Для двух случайных прогулок, Corr ( X , Y{Xt}{Yt} не существует.)Corr(X,Y)
  2. Временных рядов, образец корреляции ρ X Y (т.е. коэффициента корреляции , рассчитанного с использованием временных рядов, образцы , такие как статистические данные ^ μ Х = 1ρ^XY) будет сходиться по коэффициенту корреляции населенностейρXYприTμИкс^знак равно1TΣτзнак равно1TИксτρИксYT .

Проблема в том, что ни одно из этих утверждений не верно для случайных прогулок! (Они верны для процессов с лучшим поведением.)

Для нестационарных процессов:

  • Вы можете говорить о корреляции между процессами и { Y t } в любые два конкретных момента времени (например, Corr ( X 2 , Y 3 ) - совершенно разумное утверждение.){ИксT}{YT}Корр(Икс2,Y3)
  • Но говорить о корреляции между двумя сериями безоговорочно по времени не имеет смысла! не имеет четко определенного значения.Корр(Икс,Y)

Проблемы в случае случайной прогулки?

  1. Для случайного блуждания не существует безусловных моментов населения (т.е. которые не зависят от времени ), таких как E [ X ] . (В некотором смысле они бесконечны.) Аналогично, коэффициент безусловной корреляции ρ X Y между двумя независимыми случайными блужданиями не равен нулю; это на самом деле не существует!TЕ[Икс]ρИксY
  2. Допущения эргодических теорем не применяются и различные средние временные ряды (например, )несходится ни к чему приT. 1TΣτИксτT
    • Для стационарной последовательности среднее по временному ряду в конечном итоге будет сходиться к среднему значению, которое является безусловным по времени. Но для нестационарной последовательности, это не значит, что это безоговорочно по времени!

Если у вас есть различные наблюдения двух независимых случайных блужданий во времени (например, , X 2 и т. Д. И Y 1 , Y 2 , ....), и вы рассчитываете коэффициент корреляции выборки, вы получите число между - 1 и 1Икс1Икс2Y1Y211 . Но это не будет приближением коэффициента корреляции населения (которого не существует).

Вместо (рассчитывается с использованием средних временных рядов от т = 1 до Т = Т ) собираются быть в основном случайным переменным (принимающие значения в [ - 1 , 1 ] ) , который отражает два конкретных пути случайные блуждания взяли случайно (то есть пути , определенные жеребьевкой со , взяты из выборки пространства Q ,ρ^XY(T)t=1t=T[1,1]ωΩ .) Говоря крайне свободно (и неточно):

  • Если оба и Y тXtYt случайно ушли в одном направлении, вы обнаружите ложные позитивные отношения.
  • Если и Y t разошлись в разных направлениях, вы обнаружите ложные отрицательные отношения.XtYt
  • Если и Y t случайно встретились, вы обнаружите близкое к нулю отношение.XtYt

Вы можете Google больше об этом с условиями spurious regression random walk.

Случайное блуждание не является стационарным, и взятие средних значений за время не сойдется с тем, что вы получили бы, если бы взяли iid-вытяжки ω из выборочного пространства Ω . Как упомянуто в комментариях выше, вы можете взять первые различия Δ x t = x t - x t - 1, и для случайного блуждания этот процесс { Δ x t } является стационарным.tωΩΔxt=xtxt1{Δxt}

Большая идея изображения:

Многократные наблюдения с течением времени НЕ совпадают с множественными отрисовками из пробного пространства!

Напомним, что стохастический процесс с дискретным временем является функцией как времени ( t N ), так и выборочного пространства Ω.{Xt}tNΩ .

Чтобы средние значения по времени сходились к ожиданиям в пространстве выборок Ω , вам необходимы стационарность и эргодичностьtΩ . Это основная проблема в анализе многих временных рядов. И случайная прогулка не является стационарным процессом.

Подключение к ответу WHuber:

Если вы можете взять средние значения по нескольким симуляциям (т.е. взять несколько ничьих из ) вместо того, чтобы заставлять брать средние по времени tΩt , ряд ваших проблем исчезнет.

Вы можете, конечно , определить ρ X Y ( т ) как коэффициент корреляции выборки , вычисленной на X 1 ... X т и Y 1 ... Y т , и это будет также стохастический процесс.ρ^XY(t)X1XtY1Yt

Вы можете определить некоторую случайную величину как:Zt

Zt=|ρ^XY(t)|

Для двух случайных блужданий, начинающихся с с N ( 0 , 1 ) приращениями, легко найти E [ Z 10000 ] с помощью симуляции (то есть взять несколько дро от Ω0N(0,1)E[Z10000]Ω .)

Ниже я провел симуляцию 10000 расчетов выборочного коэффициента корреляции Пирсона. Каждый раз, когда я:

  • Имитация двух случайных блужданий длиной 10000 (с нормально распределенными приращениями, взятыми из N(0,1) ).
  • Рассчитан выборочный коэффициент корреляции между ними.

Ниже приведена гистограмма, показывающая эмпирическое распределение по 10000 рассчитанным коэффициентам корреляции.

введите описание изображения здесь

Вы можете четко наблюдать , что случайная величина р X Y ( 10000 ) может быть повсюду в интервале [ - 1 , 1 ] . Для двух фиксированных путей X и Yρ^XY(10000)[1,1]XY выборочный коэффициент корреляции не сходится ни к чему, поскольку длина временного ряда увеличивается.

С другой стороны, для определенного времени (например. t=10,000 ), коэффициент корреляции выборки является случайной величиной с конечным средним и т.д. ... Если взять абсолютное значение и вычислить среднее по всему моделированию, Я рассчитываю примерно .42. Я не уверен, почему вы хотите сделать это или почему это вообще имеет значение ??, но, конечно, вы можете.

Код:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))
Мэтью Ганн
источник
Поскольку размер выборки явно не конечен, ваши утверждения о различных несуществующих количествах вызывают недоумение. Трудно понять, как ваши символы относятся к ситуации, описанной в ОП.
whuber
Ваш размер выборки НИКОГДА не уходит в бесконечность! Не до тех пор, пока вы рисуете образцы с помощью компьютера ( вы можете делать такие предположения только в чистой математике ). И что это значит: поскольку у вас бесконечно много точек, оно не сходится? Где ты это прочитал?
Mayou36
@whuber Надеюсь, эта версия немного понятнее. Я полагаю, что ОП спрашивает, почему выборочный коэффициент корреляции (основанный на средних временных рядах) между двумя конечными сегментами случайных блужданий не равен нулю даже для временных рядов огромной длины. Основная проблема заключается в том, что для случайного блуждания не существует различных моментов населения, а средние временные ряды не сходятся ни к чему.
Мэтью Ганн
Тем не менее, для фиксированного все конечно. Более того, ожидание абсолютного выборочного коэффициента корреляции действительно сходится с увеличением n ! Также обратите внимание, что вопрос касается абсолютного значения этого коэффициента. Его ожидание (очевидно) равно нулю. nn
whuber
1
@whuber Вы имеете в виду, что для фиксированной длины временного ряда все конечно? (да, я согласен с этим.) Ожидание выборочной корреляции равно нулю (да, я согласен с этим). Однако при увеличении t выборочная корреляция не сходится в одной точке. Для двух случайных отрезков произвольной длины выборочный коэффициент корреляции не так уж далек от случайного извлечения из равномерного распределения на [0, 1] (см. Гистограмму). tt
Мэтью Ганн
15

Математика, необходимая для получения точного результата, является грязной, но мы можем вывести точное значение для ожидаемого квадрата коэффициента корреляции относительно безболезненно. Это помогает объяснить , почему значение около продолжает демонстрировать и почему увеличение длины п случайного блуждания не изменит вещи.1/2n

Существует вероятность путаницы в отношении стандартных условий. Абсолютная корреляция, о которой идет речь в этом вопросе, наряду со статистикой, составляющей его, - дисперсии и ковариации - являются формулами, которые можно применять к любой паре реализаций случайных блужданий. Вопрос касается того, что происходит, когда мы смотрим на многие независимые реализации. Для этого нам нужно принять ожидания в отношении процесса случайного блуждания.


(Редактировать)

Прежде чем мы продолжим, я хочу поделиться с вами некоторыми графическими соображениями. Пара независимых случайных блужданий - это случайное блуждание в двух измерениях. Мы можем построить путь, который идет от каждого ( X т(X,Y) до X t + 1 , Y t + 1 . Если этот путь стремится вниз (слева направо, нанесенный на обычные оси XY), тодля изучения абсолютного значения корреляциисведем на нет всезначения Y. Нарисуйте ходы по осям размером, чтобы дать X и(Xt,Yt)Xt+1,Yt+1YX значения равны стандартные отклонения и накладываться наименьших квадратов из Y к X . Наклоны этих линий будут абсолютными значениями коэффициентов корреляции, всегда лежащими между 0 и 1 .YYX01

На этом рисунке показано таких прогулок, каждая длиной 960 (со стандартными нормальными отличиями). Маленькие открытые круги отмечают их отправные точки. Темные круги отмечают их последние места.15960

Figure

Эти склоны имеют тенденцию быть довольно большими. Совершенно случайные диаграммы рассеяния этого множества точек всегда будут иметь наклоны, очень близкие к нулю. Если бы нам пришлось описать паттерны, возникающие здесь, мы могли бы сказать, что большинство 2D случайных блужданий постепенно мигрируют из одного места в другое. (Однако это не обязательно их начальная и конечная точки!) Примерно в половине случаев такая миграция происходит в диагональном направлении - и наклон соответственно высок.

Остальная часть этого поста обрисовывает в общих чертах анализ этой ситуации.


Случайное блуждание является последовательностью частичных сумм ( W(Xi) где W i - независимые одинаково распределенные переменные с нулевым средним. Пусть их общая дисперсия равна σ 2 .(W1,W2,,Wn)Wiσ2

В реализации такого обхода «дисперсия» будет вычислена так, как если бы это был какой-либо набор данных:x=(x1,,xn)

V(x)=1n(xix¯)2.

Хороший способ вычислить это значение - взять половину среднего от всех квадратов разностей:

V(x)=1n(n1)j>i(xjxi)2.

Когда рассматривается как результат случайного блуждания X из n шагов, ожидание этогоxXn

E(V(X))=1n(n1)j>iE(XjXi)2.

Различия представляют собой суммы переменных iid,

XjXi=Wi+1+Wi+2++Wj.

Расширяйте площадь и принимайте ожидания. ПосколькуWkWkσ2

E((Wi+1+Wi+2++Wj2))=(ji)σ2.

Отсюда легко следует, что

E(V(X))=1n(n1)j>i(ji)σ2=n+16σ2.

xy

E(C(X,Y)2)=3n62n53n2+2n480n2(n1)2σ4.

Следовательно, ожидание в квадратеXYn

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

9/400.47ρ(n)


ρ2(n)1000В каждой из симуляций вертикальные красные линии показывают средние значения, а пунктирные синие линии показывают значение формулы. Ясно, что это неправильно, но асимптотически это правильно. Очевидно, все распределениеρ2(N) приближается к пределу как Nувеличивается. Аналогичным образом, распределение|ρ(N)| (что представляет собой количество процентов) приблизится к пределу.

Figure

Это Rкод для создания фигуры.

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}
Whuber
источник
Моя оценка Монте-Карло на основе моделирования Е[ρ2] для Tзнак равно100о .24 (который, кажется, согласен с вашими результатами). Я согласен с вашим анализом здесь. Возможно, вы понимаете, как ОП приходит к его номеру (хотя я рассчитываю около .42, а не .56).
Мэтью Ганн
Если вы можете взять повторные розыгрыши от Ωнет ничего особенного в анализе временных рядов. Проблемы (например, эргодичность, стационарность и т. Д.) Развиваются, когда вы можете наблюдать только новые значенияИкс опережая время Tя предположил, что ОП пытался достичь ... (но, возможно, нет).
Мэтью Ганн
1
+1 но какова интуиция о том, почему существует это положительное асимптотическое значение 9/40, whereas naively one would expect that if one takes two very long random walks they should have near-zero correlation, i.e. naively one would expect the distribution of correlations to shrink to zero as n grows?
amoeba says Reinstate Monica
@amoeba First, I don't fully believe the value of 9/40, but I know it's close to correct. For the intuition, consider that two independent walks Xt and Yt are a random walk (Xt,Yt) in two dimensions. Take any random scatterplot in 2D and measure its eccentricity somehow. It will be rare for it to be perfectly circular. Thus, we expect the mean eccentricity to be positive. That there is a limiting distribution for random walks merely reflects the self-similar "fractal" nature of this 2D walk.
whuber
2
An asymptotic analysis of the issues discussed here may be found in Phillips (1986), Theorem 1e.
Christoph Hanck