Мы рисуем выборок, каждый размером , независимо от нормального распределения.n ( μ , σ 2 )
Из выборок мы затем выбираем 2 образца, которые имеют наивысшую (абсолютную) корреляцию Пирсона друг с другом.
Какова ожидаемая ценность этой корреляции?
Спасибо [PS Это не домашняя работа]
Ответы:
Я нашел следующую статью, посвященную этой проблеме: Jiang, Tiefeng (2004). Асимптотические распределения самых больших записей выборочных корреляционных матриц. Анналы прикладной вероятности, 14 (2), 865-880
Цзян показывает асимптотическое распределение статистикигде - корреляция между м и м случайными векторами длины (с ),Ln=max1≤i<j≤N|ρij| ρij i j n i≠j
Очевидно, этот результат справедлив для
любых распределенийраспределения с достаточным числом конечных моментов ( Правка: см. Комментарий @ cardinal ниже). Цзян подчеркивает, что это распределение экстремальных ценностей типа I. Расположение и масштабОжидаемое значение EV-распределения типа I равно , где обозначает постоянную Эйлера. Однако, как отмечается в комментариях, конвергенция в распределении сама по себе не гарантирует сближения средств с ограничивающим распределением.μ+σγ γ
Если бы мы могли показать такой результат в этом случае, то асимптотическое ожидаемое значениебыло быnL2n−4logn+log(log(n))
Обратите внимание, что это даст асимптотическое ожидаемое значение наибольшей квадратной корреляции, тогда как в вопросе задается ожидаемое значение наибольшей абсолютной корреляции. Так что не 100% там, а близко.
Я провел несколько кратких симуляций, которые заставили меня подумать: 1) есть проблема с моей симуляцией (вероятно), 2) есть проблема с моей транскрипцией / алгеброй (также вероятно), или 3) аппроксимация недопустима для Значения и я использовал. Возможно, ОП может использовать некоторые результаты моделирования, используя это приближение?n N
источник
В дополнение к ответу, предоставленному @jmtroos, ниже приведены подробности моего моделирования и сравнение с выводом @ jmtroos ожидания от Jiang (2004) , а именно:
Значения этого ожидания, по-видимому, выше смоделированных значений для малого и ниже для больших и они, как представляется, слегка расходятся при увеличенииОднако при увеличении различия уменьшаются , как и следовало ожидать, поскольку в статье утверждается, что распределение асимптотическое. Я пробовал различные . Моделирование ниже использует . Я довольно новичок в R, поэтому любые советы или предложения по улучшению моего кода будут тепло приветствоваться.N N n n ∈ [ 100 , 500 ] n = 200N N N n n∈[100,500] n=200
источник