Почему ковариационная матрица выборки является единственной, если размер выборки меньше числа переменных?

30

Допустим, у меня есть p мерное многомерное распределение Гаусса. И я беру n наблюдения (каждый из них p -векторных) от этого распределения и вычислить образец ковариационной матрицы S . В этой статье авторы утверждают, что выборочная ковариационная матрица, рассчитанная при p>n является сингулярной.

  • Как это правда или выведено?
  • Есть объяснения?
user34790
источник
4
Обратите внимание, что это верно независимо от базового распределения: оно не обязательно должно быть гауссовым.
говорит амеба: восстанови монику

Ответы:

22

Некоторые факты о рангах матриц, предлагаемые без доказательств (но доказательства всех или почти всех из них должны приводиться либо в стандартных текстах по линейной алгебре, либо в некоторых случаях устанавливаться в качестве упражнений после предоставления достаточного количества информации, чтобы можно было это сделать):

Если и B - две согласованные матрицы, то:AB

(i) ранг столбца = ранг строки AAA

(ii) rank(A)=rank(AT)=rank(ATA)=rank(AAT)

(iii) rank(AB)min(rank(A),rank(B))

(iv) rank(A+B)rank(A)+rank(B)

(v) если B - квадратная матрица полного ранга, то rank(AB)=rank(A)

Рассмотрим матрицу выборочных данных n×p , y . Из вышесказанного ранг не больше .ymin(n,p)

Кроме того, из приведенного выше ясно, что ранг не будет больше, чем ранг (с учетом вычисленияSyS в матричной форме, возможно, с некоторым упрощением).

Если то rank ( y ) < p, и в этом случае rank ( S ) < p .n<prank(y)<prank(S)<p

Glen_b - Восстановить Монику
источник
хороший ответ! Однако не совсем понятно, как у и S связаны с А и В?
Матифу
S вычисляется из y; («х» в оригинальном сообщении). Вы можете использовать факты о y и манипуляциях с ним (с помощью вышеуказанных правил), чтобы получить оценку ранга S. Роли, выполняемые A и B, меняются от шага к шагу.
Glen_b
14

Краткий ответ на ваш вопрос: ранг . Так что если p > n , то S сингулярно.(S)n1p>nS

Для более подробного ответа напомним, что (несмещенная) выборочная ковариационная матрица может быть записана как

S=1n1i=1n(xix¯)(xix¯)T.

По сути, мы суммируем матриц, каждая из которых имеет ранг 1. Предполагая, что наблюдения линейно независимы, в некотором смысле каждое наблюдение x i вносит 1 в ранг ( S ) , а a 1 вычитается из ранга (если p > n ) потому что мы центрируем каждое наблюдение на ˉ x . Однако, если мультиколлинеарность присутствует в наблюдениях, тогда ранг ( S ) может быть уменьшен, что объясняет, почему ранг может быть меньше, чем n - 1 .nxi(S)p>nx¯(S)n1

Большой объем работы ушел на изучение этой проблемы. Например, мой коллега и я написали статью на эту же тему, где нам было интересно определить, как поступить, если сингулярно при применении к линейному дискриминантному анализу в настройке p n .Spn

ramhiser
источник
4
Не могли бы вы пояснить, почему вычитаете 1, потому что мы каждое наблюдение по xx¯ ?
авокадо
@loganecolss: см. Почему ранг ковариационной матрицы не более ? n1для ответа на ваш вопрос.
говорит амеба: восстанови Монику
Хороший ответ! Может быть, можно просто добавить объяснение / ссылку на то, что утверждение, которое мы суммируем, - матрицы, каждая из которых имеет ранг 1 ? Благодарность!
Матифу
10

Когда вы смотрите на ситуацию правильно, вывод интуитивно очевиден и незамедлительн.

Этот пост предлагает две демонстрации. Первое, сразу ниже, на словах. Это эквивалентно простому рисунку, появляющемуся в самом конце. Между ними есть объяснение того, что означают слова и рисунок.


Ковариационная матрица для p -вариантных наблюдений представляет собой матрицу p × p, вычисляемую путем умножения влево матрицы X n p (повторно центрированных данных) на ее транспонирование X ' p n . Это произведение матриц отправляет векторы через конвейер векторных пространств, в которых измерения равны p и n . Следовательно, ковариационная матрица, ква линейного преобразования, будет посылать R п в подпространство, размерность которого не превосходит мин ( р , п ) .n pp×pXnpXpnpnRnmin(p,n)Непосредственно, что ранг ковариационной матрицы не больше . min(p,n) Следовательно, если то ранг не более n , что, будучи строго меньше p, означает, что ковариационная матрица является сингулярной.p>nnp

Вся эта терминология полностью объяснена в оставшейся части этого поста.

(Как любезно указал Амеба в удаленном сейчас комментарии и показывает в ответе на связанный вопрос , изображение фактически лежит в подпространстве коразмерности один в R n (состоящем из векторов, компоненты которых суммируются с нулем), потому что его все столбцы перецентрированы в нуле, поэтому ранг выборочной ковариационной матрицы 1XRnне может превышатьn-1.)1n1XXn1


Линейная алгебра - это отслеживание размерностей векторных пространств. Вам нужно только оценить несколько фундаментальных понятий, чтобы иметь глубокую интуицию для утверждений о ранге и сингулярности:

  1. Матричное умножение представляет собой линейные преобразования векторов. матрица М представляет собой линейное преобразование из п - мерного пространства V п к м - мерное пространство V м . В частности, он отправляет любое x V n в M x = y V m . То, что это линейное преобразование, следует непосредственно из определения линейного преобразования и основных арифметических свойств умножения матриц.m×nMnVnmVmxVnMx=yVm

  2. Линейные преобразования никогда не могут увеличить размеры. Это означает, что изображение всего векторного пространства при преобразовании M (которое является субвекторным пространством V m ) может иметь размерность, не превышающую n . Это (простая) теорема, которая следует из определения размерности.VnMVmn

  3. Размерность любого субвекторного пространства не может превышать размерность пространства, в котором оно лежит. Это теорема, но опять же это очевидно и легко доказать.

  4. Оценка линейного преобразования является размерность его образа. Ранг матрицы - это ранг линейного преобразования, которое он представляет. Это определения.

  5. Сингулярный матрица имеет ранг строго меньше пMmnn (размерность своей области). Другими словами, его изображение имеет меньший размер. Это определение.

Чтобы развить интуицию, это помогает увидеть размеры. Поэтому я напишу размеры всех векторов и матриц сразу после них, как в и x n . Таким образом, общая формулаMmnxn

ym=Mmnxn

означает , что матрица М , при нанесении на п -векторных х , производит м -векторных у .m×nMnxmy

Произведения матриц можно рассматривать как «конвейер» линейных преобразований. В общем, предположу , что приведен - мерный вектор в результате последовательных применений линейного преобразование М т п , л л м , ... , В б с , и б к п -векторного й п приходит из пространства V п . Это берет вектор x n последовательно через набор векторных пространств измерений myaaMmn,Llm,,Bbc,AabnxnVnxn инаконец.m,l,,c,b,a

Ищите узкое место : поскольку размеры не могут увеличиваться (точка 2), а подпространства не могут иметь размеры больше, чем пространства, в которых они лежат (точка 3), из этого следует, что размер изображения не может превышать наименьшее измерение min ( a , b , c , , l , m , n ), встречающиеся в конвейере.Vnmin(a,b,c,,l,m,n)


Эта схема конвейера полностью подтверждает результат, когда он применяется к продукту :XX

![enter image description here

Whuber
источник