Я заметил, что в среднем абсолютное значение коэффициента корреляции Пирсона является константой, близкой к любой паре независимых случайных блужданий, независимо от длины блуждания.0.56
0.42
Может кто-нибудь объяснить это явление?
Я ожидал, что корреляции уменьшатся с увеличением длины прогулки, как и в любой случайной последовательности.
Для своих экспериментов я использовал случайные прогулки по Гауссу со средним шагом 0 и стандартным отклонением шага 1.
ОБНОВИТЬ:
Я забыл центрировать данные, поэтому 0.56
вместо 0.42
.
Вот скрипт Python для вычисления корреляций:
import numpy as np
from itertools import combinations, accumulate
import random
def compute(length, count, seed, center=True):
random.seed(seed)
basis = []
for _i in range(count):
walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
if center:
walk -= np.mean(walk)
basis.append(walk / np.sqrt(np.dot(walk, walk)))
return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])
print(compute(10000, 1000, 123))
Ответы:
Ваши независимые процессы не взаимосвязаны! Если и Y тXt Yt являются независимыми случайными блужданиями:
Интуитивно, вы можете догадаться (неправильно), что:
Проблема в том, что ни одно из этих утверждений не верно для случайных прогулок! (Они верны для процессов с лучшим поведением.)
Для нестационарных процессов:
Проблемы в случае случайной прогулки?
Если у вас есть различные наблюдения двух независимых случайных блужданий во времени (например, , X 2 и т. Д. И Y 1 , Y 2 , ....), и вы рассчитываете коэффициент корреляции выборки, вы получите число между - 1 и 1Икс1 Икс2 Y1 Y2 −1 1 . Но это не будет приближением коэффициента корреляции населения (которого не существует).
Вместо (рассчитывается с использованием средних временных рядов от т = 1 до Т = Т ) собираются быть в основном случайным переменным (принимающие значения в [ - 1 , 1 ] ) , который отражает два конкретных пути случайные блуждания взяли случайно (то есть пути , определенные жеребьевкой со , взяты из выборки пространства Q ,ρ^XY(T) t=1 t=T [−1,1] ω Ω .) Говоря крайне свободно (и неточно):
Вы можете Google больше об этом с условиями
spurious regression random walk
.Случайное блуждание не является стационарным, и взятие средних значений за время не сойдется с тем, что вы получили бы, если бы взяли iid-вытяжки ω из выборочного пространства Ω . Как упомянуто в комментариях выше, вы можете взять первые различия Δ x t = x t - x t - 1, и для случайного блуждания этот процесс { Δ x t } является стационарным.t ω Ω Δxt=xt−xt−1 {Δxt}
Большая идея изображения:
Многократные наблюдения с течением времени НЕ совпадают с множественными отрисовками из пробного пространства!
Напомним, что стохастический процесс с дискретным временем является функцией как времени ( t ∈ N ), так и выборочного пространства Ω.{Xt} t∈N Ω .
Чтобы средние значения по времени сходились к ожиданиям в пространстве выборок Ω , вам необходимы стационарность и эргодичностьt Ω . Это основная проблема в анализе многих временных рядов. И случайная прогулка не является стационарным процессом.
Подключение к ответу WHuber:
Если вы можете взять средние значения по нескольким симуляциям (т.е. взять несколько ничьих из ) вместо того, чтобы заставлять брать средние по времени tΩ t , ряд ваших проблем исчезнет.
Вы можете, конечно , определить ρ X Y ( т ) как коэффициент корреляции выборки , вычисленной на X 1 ... X т и Y 1 ... Y т , и это будет также стохастический процесс.ρ^XY(t) X1…Xt Y1…Yt
Вы можете определить некоторую случайную величину как:Zt
Для двух случайных блужданий, начинающихся с с N ( 0 , 1 ) приращениями, легко найти E [ Z 10000 ] с помощью симуляции (то есть взять несколько дро от Ω0 N(0,1) E[Z10000] Ω .)
Ниже я провел симуляцию 10000 расчетов выборочного коэффициента корреляции Пирсона. Каждый раз, когда я:
Ниже приведена гистограмма, показывающая эмпирическое распределение по 10000 рассчитанным коэффициентам корреляции.
Вы можете четко наблюдать , что случайная величина р X Y ( 10000 ) может быть повсюду в интервале [ - 1 , 1 ] . Для двух фиксированных путей X и Yρ^XY(10000) [−1,1] X Y выборочный коэффициент корреляции не сходится ни к чему, поскольку длина временного ряда увеличивается.
С другой стороны, для определенного времени (например.t=10,000 ), коэффициент корреляции выборки является случайной величиной с конечным средним и т.д. ... Если взять абсолютное значение и вычислить среднее по всему моделированию, Я рассчитываю примерно .42. Я не уверен, почему вы хотите сделать это или почему это вообще имеет значение ??, но, конечно, вы можете.
Код:
источник
Математика, необходимая для получения точного результата, является грязной, но мы можем вывести точное значение для ожидаемого квадрата коэффициента корреляции относительно безболезненно. Это помогает объяснить , почему значение около продолжает демонстрировать и почему увеличение длины п случайного блуждания не изменит вещи.1/2 n
Существует вероятность путаницы в отношении стандартных условий. Абсолютная корреляция, о которой идет речь в этом вопросе, наряду со статистикой, составляющей его, - дисперсии и ковариации - являются формулами, которые можно применять к любой паре реализаций случайных блужданий. Вопрос касается того, что происходит, когда мы смотрим на многие независимые реализации. Для этого нам нужно принять ожидания в отношении процесса случайного блуждания.
(Редактировать)
Прежде чем мы продолжим, я хочу поделиться с вами некоторыми графическими соображениями. Пара независимых случайных блужданий - это случайное блуждание в двух измерениях. Мы можем построить путь, который идет от каждого ( X т(X,Y) до X t + 1 , Y t + 1 . Если этот путь стремится вниз (слева направо, нанесенный на обычные оси XY), тодля изучения абсолютного значения корреляциисведем на нет всезначения Y. Нарисуйте ходы по осям размером, чтобы дать X и(Xt,Yt) Xt+1,Yt+1 Y X значения равны стандартные отклонения и накладываться наименьших квадратов из Y к X . Наклоны этих линий будут абсолютными значениями коэффициентов корреляции, всегда лежащими между 0 и 1 .Y Y X 0 1
На этом рисунке показано таких прогулок, каждая длиной 960 (со стандартными нормальными отличиями). Маленькие открытые круги отмечают их отправные точки. Темные круги отмечают их последние места.15 960
Эти склоны имеют тенденцию быть довольно большими. Совершенно случайные диаграммы рассеяния этого множества точек всегда будут иметь наклоны, очень близкие к нулю. Если бы нам пришлось описать паттерны, возникающие здесь, мы могли бы сказать, что большинство 2D случайных блужданий постепенно мигрируют из одного места в другое. (Однако это не обязательно их начальная и конечная точки!) Примерно в половине случаев такая миграция происходит в диагональном направлении - и наклон соответственно высок.
Остальная часть этого поста обрисовывает в общих чертах анализ этой ситуации.
Случайное блуждание является последовательностью частичных сумм ( W(Xi) где W i - независимые одинаково распределенные переменные с нулевым средним. Пусть их общая дисперсия равна σ 2 .(W1,W2,…,Wn) Wi σ2
В реализации такого обхода «дисперсия» будет вычислена так, как если бы это был какой-либо набор данных:x=(x1,…,xn)
Хороший способ вычислить это значение - взять половину среднего от всех квадратов разностей:
Когда рассматривается как результат случайного блуждания X из n шагов, ожидание этогоx X n
Различия представляют собой суммы переменных iid,
Расширяйте площадь и принимайте ожидания. ПосколькуWk Wk σ2
Отсюда легко следует, что
Следовательно, ожидание в квадратеX Y n
Это
R
код для создания фигуры.источник