Мера «дисперсии» от ковариационной матрицы?

17

Если данные равны 1d, дисперсия показывает, насколько точки данных отличаются друг от друга. Если данные многомерны, мы получим ковариационную матрицу.

Существует ли мера, которая дает единственное число, как точки данных отличаются друг от друга в целом для многомерных данных?

Я чувствую, что уже может быть много решений, но я не уверен, какой правильный термин использовать для их поиска.

Может быть, я могу сделать что-то вроде сложения собственных значений ковариационной матрицы, это звучит разумно?

dontloo
источник
2
Определитель ковариационной матрицы. Я скоро опубликую более конкретный ответ.
user603
5
Трассировка используется очень часто. Например, в PCA доля дисперсии, объясняемая каждым компонентом, представляет собой долю «полной дисперсии», которая определяется как след ковариационной матрицы. @ user603 С нетерпением жду вашего ответа.
говорит амеба: восстанови Монику
2
adding up the eigenvalues of the covariance matrixравно следу амебы, упомянутому прямо выше.
ttnphns
Для чего / где будет использоваться мера?
Hellogoodbye
@ Здравствуйте, привет, на самом деле у меня есть некоторые [шумные] данные с метками, и я заранее предполагаю, что [истинные] точки данных в одной и той же категории не должны сильно отличаться. Я ищу способ измерения степени различий между точками данных в каждой категории, чтобы я мог получить представление о том, насколько шумны данные для каждой категории.
dontloo

Ответы:

15

(Ответ ниже просто вводит и утверждает теорему, доказанную в [0]. Прелесть этой статьи в том, что большинство аргументов приводятся в терминах базовой линейной алгебры. Чтобы ответить на этот вопрос, достаточно сформулировать основные результаты, но конечно, иди проверь первоисточник).

В любой ситуации, когда многомерный шаблон данных может быть описан эллиптическим распределением вариации , статистический вывод по определению сведется к проблеме подбора (и характеризации) вектора местоположения вариации (скажем, ) и a на симметричной определенной матрицы (скажем, ) к данным. По причинам, которые я объясняю ниже (но которые вы уже предполагаете в качестве предпосылок), часто будет более целесообразно разложить на компонент формы (матрица SPSD того же размера, что иk θ k k Σ Σ Σ σ SККθККΣΣΣ) с учетом формы контуров плотности вашего многомерного распределения и скаляра выражающего масштаб этих контуров.σS

В одномерных данных ( ), , ковариационная матрица ваших данных является скалярной, и, как будет видно из нижеследующего обсуждения, компонент формы равен 1, так что равен его масштабная составляющая всегда и никакой двусмысленности невозможна.Σ Σ Σ Σ = σ SКзнак равно1ΣΣΣΣзнак равноσS

В многомерных данных возможен выбор функций масштабирования . Один из них ( ) выделяется тем, что обладает желаемым ключом. Это должно сделать его предпочтительным выбором коэффициента масштабирования в контексте эллиптических семейств.σ S = | ΣσSσSзнак равно|ΣΣ|1/К


Многие проблемы в статистике MV включают в себя оценку матрицы рассеяния, определяемой как функция (al) симметричная, полу-положительно определенная в и удовлетворяющая:R k × kΣRk×k

A b

(0)Σ(AX+b)=AΣ(X)A
(для не сингулярной матрицы и векторов ). Например, классическая оценка ковариантности удовлетворяет (0), но отнюдь не единственная. Ab

При наличии эллиптических распределенных данных, где все контуры плотности являются эллипсами, определенными одной и той же матрицей формы, вплоть до умножения на скаляр, естественно рассмотреть нормализованные версии вида:Σ

VS=Σ/S(Σ)

где - 1-хоногенная функция, удовлетворяющая:S

(1)S(λΣ)=λS(Σ)

для всех . Тогда называется компонентом формы матрицы рассеяния (в короткой матрице формы), а называется компонентом масштаба матрицы рассеяния. Примеры многомерных задач оценки, в которых функция потерь зависит только от через компонент формы включают в себя тесты сферичности, PCA и CCA и другие.V S сг S = S 1 / 2 ( Σ ) Σ V Sλ>0VSσS=S1/2(Σ)ΣВS

Конечно, существует множество возможных масштабирующих функций, поэтому это все еще оставляет открытым вопрос о том, какой (если таковой имеется) из нескольких вариантов функции нормализации в некотором смысле является оптимальным. Например:S

  • Sзнак равнотр(Σ)/К (например, тот, который был предложен @amoeba в его комментарии под вопросом ОП. См. Также [1], [2], [3])
  • S=|Σ|1/k ([4], [5], [6], [7], [8])
  • Σ11 (первая запись ковариационной матрицы)
  • Σλ1(Σ) (первое собственное значение )Σ

Однако является единственной функцией масштабирования, для которой информационная матрица Фишера для соответствующих оценок масштаба и формы в локально асимптотически нормальных семействах является блочной диагональю (то есть масштабом). и компоненты формы задачи оценки асимптотически ортогональны) [0]. Это означает, среди прочего, что функционал масштаба является единственным выбором для которого не спецификация не приводит к потере эффективности при выполнении вывода на .S=|Σ|1/kS=|Σ|1/kSσSVS

Я не знаю какой-либо сравнительно сильной характеристики оптимальности для любого из многих возможных вариантов которые удовлетворяют (1).S

  • [0] Paindaveine, D. Каноническое определение формы. Статистика и вероятностные письма, том 78, выпуск 14, 1 октября 2008 г., стр. 2240-2247. Ссылка без ссылки
  • [1] Думбген Л. (1998). О М-функционале Тайлера рассеяния в большой размерности, Ann. Текущий месяц Statist. Математика 50, 471–491.
  • [2] Оллила Э., Т.П. Геттманспергер и Х. Оя (2004). Аффинно-эквивариантные методы многомерного знака. Препринт, Университет Ювяскюля.
  • [3] Тайлер, Д.Е. (1983). Робастные и эффективные свойства матриц рассеяния, Биометрика 70, 411–420.
  • [4] Дамбген Л. и Д.Э. Тайлер (2005). О свойствах разбивки некоторых многомерных М-функционалов, сканд. J. Statist. 32, 247–264.
  • [5] Халлин, М. и Д. Пайндавейн (2008). Оптимальные ранговые тесты на однородность рассеяния, Ann. Статистика., Чтобы появиться.
  • [6] Salibian-Barrera, M., S. Van Aelst и G. Willems (200 6). Анализ основных компонентов на основе многомерных ММ-оценок с быстрой и надежной начальной загрузкой, Дж. Амер. Statist. Доц. 101, 1198–1211.
  • [7] Taskinen S., C. Croux, A. Kankainen, E. Ollila и H. O ja (2006). Функции влияния и эффективность канонических корреляционных и векторных оценок на основе матриц рассеяния и формы, J. Multivariate Anal. 97, 359–384.
  • [8] Тацуока, К.С. и Д.Э. Тайлер (2000). О единственности S-функционалов и M-функционалов при неэллиптических распределениях, Ann. Statist. 28, 1219–1243.
user603
источник
1
Кроме того, - странный выбор для компонента масштаба, потому что он не является инвариантным к вращению ...Σ11
говорит амеба Восстановить Монику
Спасибо за продуманный ответ! мне потребуется некоторое время, чтобы полностью понять это :)
dontloo
@amoeba: применяется к XΣ . Я бросаю XXX в остальной части ответа, потому что нет никакой путаницы. Я согласен, что это немного неуклюже, поэтому я теперь использую Σ ( XXX . Я согласен с вашим вторым комментарием. По тому же признаку λ 1 ( Σ ) не является инвариантным для перемасштабирования. В этом смысле ограничение однородности, наложенное на S, является очень низким баром. Σ(XX)λ1(Σ)S
user603
Подождите; почему кто-то хочет или ожидает, что компонент масштаба будет инвариантным к масштабированию ??
говорит амеба: восстанови Монику
Извините, я имел в виду, если вы используете качестве функции масштабирования, тогда результирующая матрица формы не будет эквивалентна масштабированию. λ1(Σ)
user603
11

Дисперсия скалярной переменной определяется как квадратическое отклонение переменной от ее среднего значения:

Var(X)=E[(XE[X])2]

Одно обобщение на скалярную дисперсию для векторнозначных случайных величин можно получить, интерпретируя отклонение как евклидово расстояние :

Vars(X)=E[XE[X]22]

Это выражение может быть переписано как

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

C

Vars(X)=tr(C)

который является следом ковариационной матрицы.

Привет пока
источник
4

Хотя след ковариационной матрицы tr (C) дает меру общей дисперсии, он не учитывает корреляцию между переменными.

Если вам нужна мера общей дисперсии, которая велика, когда ваши переменные не зависят друг от друга, и очень мала, когда переменные сильно коррелируют, вы можете использовать определитель ковариационной матрицы: | C | ,

Пожалуйста, смотрите эту статью для лучшего разъяснения.

Саар
источник
4

Если вам нужно только одно число, то я предлагаю наибольшее собственное значение ковариационной матрицы. Это также объясняется дисперсией первого основного компонента в PCA. Он говорит вам, сколько общей дисперсии можно объяснить, если вы уменьшите размерность вашего вектора до единицы. Смотрите этот ответ по математике SE.

Идея состоит в том, чтобы свести ваш вектор в одно измерение, объединяя все переменные линейно в один ряд. Вы в конечном итоге с проблемой 1d.

Объясненная дисперсия может быть представлена ​​в% от общей дисперсии. В этом случае вы сразу увидите, есть ли линейная корреляция между рядами. В некоторых приложениях это число может быть 80% и выше, например, моделирование кривой процентной ставки в финансах. Это означает, что вы можете построить линейную комбинацию переменных, которая объясняет 80 дисперсии всех переменных.

Аксакал
источник
3

H(X)=p(x)logp(x)dx.

p(x)μΣ

H(X)=12log((2πe)ndet(Σ))
n

И это зависит от определителя ковариационной матрицы, как предполагает @ user603.

dontloo
источник
Этот ответ, похоже, не соответствует духу вопроса. Ковариации и дисперсии являются свойствами любого распределения (хотя в некоторых случаях они могут быть бесконечными или неопределенными), в то время как этот ответ сфокусирован на чрезвычайно частном случае многомерного нормального распределения. Следовательно, это не относится к большинству ситуаций, неявно предусмотренных в этом вопросе. Не могли бы вы пояснить, в каком смысле ваш ответ может быть истолкован как предоставление полезного руководства в общем случае, когда данные не обязательно являются нормальными?
whuber
@whuber спасибо за предложение, я думаю, может быть, мне следует переписать Гауссиан как «распределение, которое максимизирует энтропию с учетом дисперсии»? тогда результат станет некоторой верхней границей. что вы думаете?
dontloo
Звучит так, будто это идет куда-то полезно и более широко.
whuber
1
Я думаю, есть много способов снять кожу с кошки;). Я действительно считаю, что связь между вашим ответом и моим очень сильная . У меня есть небольшая болтовня; Я думаю, что детерминант обладает некоторым свойством оптимальности для задачи, которую ты пытаешься решить (и не должен быть выбран просто на основе фамильярности), и я думаю, что эти свойства оптимальности выходят за пределы ковариационных матриц (они справедливы для детерминанта любого функционала рассеяния, с которым ты случайно столкнулся) выбрал и их там много) и простирается за пределы гауссовского распределения (на все эллиптическое семейство).
user603