Я говорю здесь о матрицах корреляций Пирсона.
Я часто слышал, что все корреляционные матрицы должны быть положительными полуопределенными. Насколько я понимаю, положительно определенные матрицы должны иметь собственные значения , в то время как положительные полуопределенные матрицы должны иметь собственные значения . Это заставляет меня думать, что мой вопрос можно перефразировать как «Возможно ли, чтобы корреляционные матрицы имели собственное значение ?»≥ 0 = 0
Возможно ли, чтобы корреляционная матрица (сгенерированная из эмпирических данных без отсутствующих данных) имела собственное значение или собственное значение ? Что, если бы это была матрица корреляции населения?< 0
Я прочитал вверху ответ на этот вопрос о ковариационных матрицах, которые
Рассмотрим три переменные, , и . Их ковариационная матрица не является положительно определенной, поскольку существует вектор ( ), для которого не является положительным.Y Z = X + Y M z = ( 1 , 1 , - 1 ) ′ z ′ M z
Однако, если вместо ковариационной матрицы я выполняю эти вычисления на корреляционной матрице, то получается положительным. Таким образом, я думаю, что, возможно, ситуация отличается для матриц корреляции и ковариации.
Моя причина для того, чтобы спросить, что меня спросили на stackoverflow , в связи с вопросом, который я задал там.
источник
Ответы:
Матрицы корреляции не должны быть положительно определенными.
Рассмотрим скалярную случайную величину X, имеющую ненулевую дисперсию. Тогда корреляционная матрица X с самим собой является матрицей всех, которая является положительно-полуопределенной, но не положительно определенной.
Что касается выборочной корреляции, рассмотрим выборочные данные для вышеуказанного, имеющие первое наблюдение 1 и 1 и второе наблюдение 2 и 2. Это приводит к тому, что выборочная корреляция является матрицей всех, поэтому не является положительно определенной.
Выборочная корреляционная матрица, если она рассчитана в точной арифметике (т.е. без ошибки округления), не может иметь отрицательных собственных значений.
источник
Ответы @yoki и @MarkLStone (+1 к обоим) указывают, что корреляционная матрица населения может иметь нулевые собственные значения, если переменные связаны линейно (например, в примере @MarkLStone и в пример @yoki).Х 1 = 2 Х 2X1=X2 X1=2X2
В дополнение к этому матрица корреляции выборки обязательно будет иметь нулевые собственные значения, если , т.е. если размер выборки меньше, чем число переменных. В этом случае ковариационные и корреляционные матрицы будут иметь максимум ранг , поэтому будет не менее нулевых собственных значений. См. Почему ковариационная матрица выборки является единственной, если размер выборки меньше числа переменных? и почему ранг ковариационной матрицы не более ?n - 1 p - n + 1 n - 1n<p n−1 p−n+1 n−1
источник
Рассмотрим как rv со средним 0 и дисперсией 1. Пусть , и вычислим ковариационную матрицу . Поскольку , и . Из-за конфигурации с нулевым средним вторые моменты равны подходящим ковариациям, например: .X Y=2X (X,Y) 2X=Y E[Y2]=4E[X2]=σ2Y E[XY]=2E[X2] Cov(X,Y)=E[XY]−EXEY=E[XY]
Таким образом, ковариационная матрица будет иметь вид: с нулевым собственным значением. Матрица корреляции будет иметь вид: имея нулевое собственное значение. Из-за линейного соответствия между и легко понять, почему мы получаем эту корреляционную матрицу - диагональ всегда будет 1, а недиагональность - 1 из-за линейной зависимости.
источник
2
в есть это последнее равенство, следующее из: . с о v ( X , Y ) = Е ( Х У ) - Е ( Х ) Е ( У ) = 2 Е [ Х 2 ] = 2 ( σ 2 Х + [ Е ( Х ) ] 2 ) Е ( Х 2 ) = Var ( X ) + [ E ( X)