Ожидаемое значение ложной корреляции

12

Мы рисуем выборок, каждый размером , независимо от нормального распределения.n ( μ , σ 2 )Nn(μ,σ2)

Из выборок мы затем выбираем 2 образца, которые имеют наивысшую (абсолютную) корреляцию Пирсона друг с другом.N

Какова ожидаемая ценность этой корреляции?

Спасибо [PS Это не домашняя работа]

П Селлаз
источник
2
(+1) Это сделало бы довольно сложный домашний вопрос :-). Вам нужен общий ответ или вы (возможно) могли бы сосредоточить свое внимание на конкретных значениях или ? Например, может быть возможно разработать хорошие приближения, когда намного больше, чем ; в других случаях потребуется другое приближение. п н НNnnN
whuber
1
Я надеялся на общий ответ, но тот, где предположение было бы в порядке! Для конкретных значений и это было бы не так интересно, так как я могу посмотреть на такие конкретные случаи с помощью симуляции (это то, что я делаю в данный момент), но это все еще может представлять интерес. Н нn>>NNn
P Sellaz
1
Я думаю, что общее решение любой реальной утилиты, вероятно, маловероятно, хотя я могу ошибаться. Это довольно тесно связано с некоторыми открытыми проблемами на стыке геометрии и линейной алгебры. В приложениях потребность в информации о таких количествах возникает, например, при сжатии.
кардинал
1
Кстати, это результат симуляции, которую я только что выполнил: используя Normal (0,1), я обнаружил, что средняя корреляция, (более 1000 симуляций) и количество выборок приблизительно связаны с для и с использованием модели линейной регрессии. Подход модели и обычная диагностика были довольно хорошими. Я также обнаружил, что средняя корреляция была приблизительно нормально распределена (хотя и слегка наклонена вправо). N ρ = 0,025 + 0,113 ln ( N ) - 0,008 ln ( N ) 2 n = 100 4 N nρN
ρ=0.025+0.113ln(N)0.008ln(N)2
n=1004Nn
P Sellaz

Ответы:

9

Я нашел следующую статью, посвященную этой проблеме: Jiang, Tiefeng (2004). Асимптотические распределения самых больших записей выборочных корреляционных матриц. Анналы прикладной вероятности, 14 (2), 865-880

Цзян показывает асимптотическое распределение статистикигде - корреляция между м и м случайными векторами длины (с ),Ln=max1i<jN|ρij|ρijijnij

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
где в статье предполагается а является функцией .a=limnn/NNn

Очевидно, этот результат справедлив для любых распределений распределения с достаточным числом конечных моментов ( Правка: см. Комментарий @ cardinal ниже). Цзян подчеркивает, что это распределение экстремальных ценностей типа I. Расположение и масштаб

σ=2,μ=2log(1a28π).

Ожидаемое значение EV-распределения типа I равно , где обозначает постоянную Эйлера. Однако, как отмечается в комментариях, конвергенция в распределении сама по себе не гарантирует сближения средств с ограничивающим распределением.μ+σγγ

Если бы мы могли показать такой результат в этом случае, то асимптотическое ожидаемое значениебыло быnLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

Обратите внимание, что это даст асимптотическое ожидаемое значение наибольшей квадратной корреляции, тогда как в вопросе задается ожидаемое значение наибольшей абсолютной корреляции. Так что не 100% там, а близко.

Я провел несколько кратких симуляций, которые заставили меня подумать: 1) есть проблема с моей симуляцией (вероятно), 2) есть проблема с моей транскрипцией / алгеброй (также вероятно), или 3) аппроксимация недопустима для Значения и я использовал. Возможно, ОП может использовать некоторые результаты моделирования, используя это приближение?nN

jmtroos
источник
2
И в сторону: мне очень понравился этот вопрос - я задавался вопросом об этом раньше. Я был удивлен подключением к дистрибутиву Type-I - я нашел это довольно круто. Хотелось бы, чтобы я понял математику, ведущую к этому ...
jmtroos
1
(+1) Хорошая находка !! Я думаю, мы можем предположить, что положительный квадратный корень из этого эквивалентен ожидаемому значению наибольшей абсолютной корреляции? В вашем выражении для ожидания, мы не можем просто взять все части, включающие чтобы получить: ? Во всяком случае, я сравнил это с моими симуляциями, и это выглядит довольно близко! Мой код R действительно неаккуратный, поэтому я попытаюсь привести его в порядок позже сегодня или завтра и опубликовать его ...Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
P Sellaz
Кстати, документ доступен прямо здесь: projecteuclid.org/DPubS/Repository/1.0/…
P Sellaz,
3
(+1) Это очень хорошая статья, и я только просмотрел ее, но здесь нужно быть немного осторожнее . Некоторые замечания: ( 1 ) Результаты относятся к режиму , поэтому размерность векторов должна расти примерно пропорционально количеству рассматриваемых векторов для этих результатов. держать. ( 2 ) Даже в этом случае результаты не имеют места для «любого» распределения; действительно, условия в статье требуют, чтобы случайные переменные были «почти экспоненциально ограниченными» в том смысле, что мы, по сути, требуем, чтобы 30-й момент был конечным! (продолжение)n/pγ(0,)
кардинал
3
(продолжение) ( 3 ) Сходимость в распределении не гарантирует сходимости средств к предельному распределению. Для этого мы обычно используем что-то похожее на равномерную интегрируемость множества . Это не было показано в статье, и, поскольку речь идет о распределениях экстремальных значений, вполне может оказаться неверным. Один из моих любимых примеров этого явления - последовательность случайных величин, которая сходится по распределению к a , но можно найти средства для с любой положительной константой, которую выберете. χ 2 1{Ln}χ12
кардинал
2

В дополнение к ответу, предоставленному @jmtroos, ниже приведены подробности моего моделирования и сравнение с выводом @ jmtroos ожидания от Jiang (2004) , а именно:

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

Значения этого ожидания, по-видимому, выше смоделированных значений для малого и ниже для больших и они, как представляется, слегка расходятся при увеличенииОднако при увеличении различия уменьшаются , как и следовало ожидать, поскольку в статье утверждается, что распределение асимптотическое. Я пробовал различные . Моделирование ниже использует . Я довольно новичок в R, поэтому любые советы или предложения по улучшению моего кода будут тепло приветствоваться.N N n n [ 100 , 500 ] n = 200NNNnn[100,500]n=200

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation
П Селлаз
источник
Смотрите мои комментарии к другому ответу, который может (или не может) помочь объяснить некоторые несоответствия, которые вы заметили.
кардинал