Значение среднего коэффициента корреляции

11

Отказ от ответственности: если вы обнаружите, что этот вопрос слишком похож на другой, я рад его объединению. Тем не менее, я не нашел удовлетворительного ответа где-либо еще (и у меня пока нет «репутации», чтобы комментировать или поднимать голос), поэтому я подумал, что было бы лучше задать новый вопрос самостоятельно.

У меня вопрос такой. Для каждого из 12 человеческих субъектов я вычислил коэффициент корреляции (число Спирмена) между 6 уровнями независимой переменной X и соответствующими наблюдениями зависимой переменной Y. (Примечание: уровни X не равны между субъектами.) Мой нулевая гипотеза состоит в том, что в общей популяции эта корреляция равна нулю. Я проверил эту гипотезу двумя способами:

  1. Использование t-критерия с одной выборкой для коэффициентов корреляции, полученных от моих 12 предметов.

  2. Центрируя мои уровни X и наблюдения Y так, чтобы для каждого участника среднее (X) = 0 и среднее (Y) = 0, а затем вычисляя корреляцию по совокупным данным (72 уровня X и 72 наблюдения Y) ,

Теперь, читая о работе с коэффициентами корреляции (здесь и в других местах), я начал сомневаться в правильности первого подхода. В частности, я видел следующее уравнение, всплывающее в нескольких местах, представленное (по-видимому) как t-критерий для средних коэффициентов корреляции:

t=rSEr=n21r2

где будет средним коэффициентом корреляции (и давайте предположим, что мы получили его, используя сначала преобразование Фишера по коэффициентам для каждого субъекта), а - количество наблюдений. Интуитивно, это кажется мне неправильным, поскольку оно не включает какую-либо меру изменчивости между субъектами. Другими словами, если бы у меня было 3 коэффициента корреляции, я бы получил одну и ту же t-статистику, независимо от того, были ли они [0,1, 0,5, 0,9] или [0,45 0,5 0,55], или любой диапазон значений с одинаковым средним (и )n n = 3rnn=3

Поэтому я подозреваю, что вышеприведенное уравнение фактически не применяется при проверке значимости среднего коэффициента корреляции, но при проверке значимости одного коэффициента корреляции на основе наблюдений двух переменных.N

Может ли кто-нибудь здесь подтвердить эту интуицию или объяснить, почему она не так? Кроме того, если эта формула не применима к моему случаю, кто-нибудь знает / правильный подход? Или, может быть, мой собственный тест № 2 уже действителен? Любая помощь очень ценится (включая указатели на предыдущие ответы, которые я, возможно, пропустил или неправильно истолковал).

Рубен ван Берген
источник
2
Пирсона нечувствителен к преобразованиям центрирования и масштабирования, поэтому я думаю, что центрирование не имеет отношения к вашему вопросу. Например, кор ( ) = кор ( Х , Y - ˉ Y ) = кор ( ) = кор ( ). X , Y X , Y + 1000 X , Y × 1000rX,YX,YY¯X,Y+1000X,Y×1000
Алексис
Я с тобой согласен. Вот почему я интерпретировал центрирование как «центрирование каждой переменной в отдельности перед их объединением».
Федерико Тедески
1
@FedericoTedeschi « означает «центрирование каждой переменной отдельно перед объединением» ? YY¯
Алексис
@Alexis Я ответил вам в нижней части моего ответа (было бы слишком долго писать его в комментарии, и мне также пришлось бы исправлять его несколько раз из-за проблемы WYSINWYG).
Федерико Тедески

Ответы:

2

Лучшим подходом к анализу этих данных является использование (она же смешанных эффектов, иерархическая модель) со subjectслучайным эффектом (случайный перехват или случайный перехват + наклон). Подводя итог другого моего ответа :

По сути, это регрессия, которая моделирует единые общие отношения, позволяя этим отношениям различаться между группами (субъектами). Этот подход выигрывает от частичного объединения и использует ваши данные более эффективно.

mkt - восстановить монику
источник
-1

Я предполагаю, что переменных ( 6 X и 6 Y ) одинаковы для всех людей (на самом деле я не уверен, что понимаю, что вы имеете в виду, говоря, что уровни не одинаковы для разных предметов: я надеюсь, что вы имеется в виду независимость между диапазонами переменных, а не то, какие переменные измеряются для каждого человека). Да, формула, которую вы показали, относится к коэффициенту корреляции между двумя переменными.126 X6 Y

В своем пункте 2 вы говорите о нормализации: я думаю, что это имело бы смысл, если бы вы делали это для каждой из переменных в отдельности. Однако, несмотря на это, проблема этого подхода заключается в том, что он не контролирует внутри-индивидуальную зависимость.62

Я полагаю, что ваш подход 1 также недопустим, потому что это будет тест из переменных с распределением t только с 10 степенями свободы, поэтому я не думаю, что вы можете применить Центральную предельную теорему в этом случае.6t10

Возможно, с большими числами вы могли бы использовать подход со случайным эффектом, учитывающий случайный наклон и одновременно проверяющий как нулевой средний коэффициент (от по Y i ), так и отсутствие случайного коэффициента. Однако я считаю, что для этого недостаточно 6 переменных и 12 наблюдений.XiYi

Я предлагаю вам посмотреть на это как на тест 6 значений (становясь 12, если вы также учитываете значения ниже диагонали) матрицы корреляции среди переменных (как X, так и Y ), то есть тех, которые находятся на диагонали 2-го (и эквивалентно 3-му) квадранту. Таким образом, я бы сделал тест отношения правдоподобия между ограниченной и неограниченной моделью.12XY

@Alexis Я понимаю, что центрирование , Y 1 , ... , Y 6 , заменив их на X * 1 = X 1 - ¯ X 1 , ... , X * 6 = X 6 - ¯ X 6 , Y 1 = Y 1 - ¯ Y 1 , , Y X1,,X6Y1,,Y6 будет иметь смысл (я думаючтотакже имеет смысл разделить их на ихSE«s). Таким образом, переменныеXиY(созданные с учетомXi ,1i6,как если бы они были вхождениями единственной переменной, и то же самое дляYi ) имели бы все0. Напротив, если мысначалапостроим две переменныеX,Y(созданные с учетомXX1=X1X1¯,,X6=X6X6¯,Y1=Y1Y1¯,,Y6=Y6Y6¯SEXYXi,1i6Yi0X,Y как если бы они были вхождениями уникальной переменной, и то же самое для Y i ), то, конечно, вычитание среднего значения (а также деление на SE X и Y ) ничего не изменит.Xi,1i6YiXY

РЕДАКТИРОВАТЬ 01/01/18

Позвольте указать переменную и j ( 1 j 12 ) человека. Тогда предположим, что у нас есть:ij1j12

;X1j=Y1j=10,j

;X2j=Y2j=8,j

;X3j=Y3j=6,j

;X4j=Y4j=4,j

;X5j=Y5j=2,j

.X6j=Y6j=j,j

Корреляция в этом случае должна быть .0.5428

Если мы центрируем каждую переменную, учитывая, что для и X i, и Y i не имеют вариаций, мы имеем: X i j = Y i j = 0 . Что касается i = 6 , мы получаем значения X 6 j = j - 6,5 , Y j 6 = ( 13 - j ) - 6,5 = 6,5 -1i5XiYiXij=Yij=0i=6 (т. е. для X : - 5,5 , - 4,5 , - 3,5 , - 2,5 , - 1,5 , - 0,5 , 0,5 , 1,5 , 2,5 , 3,5 , 4,5 , 5,5 , и с точностью до Y ) , Поскольку 0 = - 0 и j - 6,5 = - ( 6,5 - j ) , мы получаем: X X6j=j6.5,Yj6=(13j)6.5=6.5jX5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5Y0=0j6.5=(6.5j), что подразумевает корреляцию-1.Xij=Yiji,jX=Y1

Федерико Тедески
источник
Я согласен с вами, если мы будем следовать второй процедуре. Вот почему я считаю, что Рубен ван Берген имел в виду то, что я описал в 1-й процедуре. В этом случае мы имеем: , но c o r ( X , Y ) = c o r ( X , Y )cor(Xi,Yi)=cor(Xi,Yi),icor(X,Y)=cor(X,Y)это вообще не правда. Я редактирую свой пост, чтобы показать контрпример.
Федерико Тедески
Значения, дающие корреляцию : X = 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 6 , 6 ,0.5428 ; Y = 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 8 , 8 , 8X=10,10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,1,2,3,4,5,6,7,8,9,10,11,12 . Неважно, действительно ли корреляция 0,5428Y=10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,12,11,10,9,8,7,6,5,4,3,2,10.5428, поскольку он явно отличается от . 1
Федерико Тедески
Корреляция между и X = 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,X=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5 составляет - 1 . То, что вы говорите, что X = 1 , , 12 и Y = 12 , , 1, приводит к c o r ( X , Y ) = c o r ( X , Y ) = - 1 верно, но это только означает, что c o r ( X iX=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.51X=1,,12Y=12,,1cor(X,Y)=cor(X,Y)=1 , это то, что я уже написал. cor(Xi,Yi)=cor(Xi,Yi)
Федерико Тедески
Конечно , : это является следствием инвариантности корреляции линейных преобразований. Это то, с чем я уже согласился в своем первом комментарии: «Я согласен с вами. Вот почему я интерпретировал центрирование как« центрирование каждой переменной отдельно перед их объединением ».» - Федерико Тедески, 27 декабря 17 года в 10:27сор(Икс;Y)знак равносор(Икс-Икс¯;Y-Y¯)
Федерико Тедески
Возможно, я не понимаю, что означает «центрирование каждой переменной в отдельности перед их объединением». Для меня означает X 1 - ˉ X , X 2 - ˉ X , , X n - ˉ X «центрирует каждую переменную отдельно, прежде чем соединить их вместе». Можете ли вы помочь мне понять наше очевидное иное понимание? XX¯X1X¯,X2X¯,,XnX¯
Алексис