Если данные равны 1d, дисперсия показывает, насколько точки данных отличаются друг от друга. Если данные многомерны, мы получим ковариационную матрицу.
Существует ли мера, которая дает единственное число, как точки данных отличаются друг от друга в целом для многомерных данных?
Я чувствую, что уже может быть много решений, но я не уверен, какой правильный термин использовать для их поиска.
Может быть, я могу сделать что-то вроде сложения собственных значений ковариационной матрицы, это звучит разумно?
variance
covariance
covariance-matrix
dontloo
источник
источник
adding up the eigenvalues of the covariance matrix
равно следу амебы, упомянутому прямо выше.Ответы:
(Ответ ниже просто вводит и утверждает теорему, доказанную в [0]. Прелесть этой статьи в том, что большинство аргументов приводятся в терминах базовой линейной алгебры. Чтобы ответить на этот вопрос, достаточно сформулировать основные результаты, но конечно, иди проверь первоисточник).
В любой ситуации, когда многомерный шаблон данных может быть описан эллиптическим распределением вариации , статистический вывод по определению сведется к проблеме подбора (и характеризации) вектора местоположения вариации (скажем, ) и a на симметричной определенной матрицы (скажем, ) к данным. По причинам, которые я объясняю ниже (но которые вы уже предполагаете в качестве предпосылок), часто будет более целесообразно разложить на компонент формы (матрица SPSD того же размера, что иk θ k k Σ Σ Σ σ SК К θ К К Σ Σ Σ ) с учетом формы контуров плотности вашего многомерного распределения и скаляра выражающего масштаб этих контуров.σS
В одномерных данных ( ), , ковариационная матрица ваших данных является скалярной, и, как будет видно из нижеследующего обсуждения, компонент формы равен 1, так что равен его масштабная составляющая всегда и никакой двусмысленности невозможна.Σ Σ Σ Σ = σ Sк = 1 Σ Σ Σ Σ= σS
В многомерных данных возможен выбор функций масштабирования . Один из них ( ) выделяется тем, что обладает желаемым ключом. Это должно сделать его предпочтительным выбором коэффициента масштабирования в контексте эллиптических семейств.σ S = | ΣσS σS=|ΣΣ|1/k
Многие проблемы в статистике MV включают в себя оценку матрицы рассеяния, определяемой как функция (al) симметричная, полу-положительно определенная в и удовлетворяющая:R k × kΣ Rk×k
A b
При наличии эллиптических распределенных данных, где все контуры плотности являются эллипсами, определенными одной и той же матрицей формы, вплоть до умножения на скаляр, естественно рассмотреть нормализованные версии вида:Σ
где - 1-хоногенная функция, удовлетворяющая:S
для всех . Тогда называется компонентом формы матрицы рассеяния (в короткой матрице формы), а называется компонентом масштаба матрицы рассеяния. Примеры многомерных задач оценки, в которых функция потерь зависит только от через компонент формы включают в себя тесты сферичности, PCA и CCA и другие.V S сг S = S 1 / 2 ( Σ ) Σ V Sλ > 0 ВS σS= S1 / 2( Σ) Σ ВS
Конечно, существует множество возможных масштабирующих функций, поэтому это все еще оставляет открытым вопрос о том, какой (если таковой имеется) из нескольких вариантов функции нормализации в некотором смысле является оптимальным. Например:S
Однако является единственной функцией масштабирования, для которой информационная матрица Фишера для соответствующих оценок масштаба и формы в локально асимптотически нормальных семействах является блочной диагональю (то есть масштабом). и компоненты формы задачи оценки асимптотически ортогональны) [0]. Это означает, среди прочего, что функционал масштаба является единственным выбором для которого не спецификация не приводит к потере эффективности при выполнении вывода на .S=|Σ|1/k S=|Σ|1/k S σS VS
Я не знаю какой-либо сравнительно сильной характеристики оптимальности для любого из многих возможных вариантов которые удовлетворяют (1).S
источник
Дисперсия скалярной переменной определяется как квадратическое отклонение переменной от ее среднего значения:
Одно обобщение на скалярную дисперсию для векторнозначных случайных величин можно получить, интерпретируя отклонение как евклидово расстояние :
Это выражение может быть переписано как
который является следом ковариационной матрицы.
источник
Хотя след ковариационной матрицы tr (C) дает меру общей дисперсии, он не учитывает корреляцию между переменными.
Если вам нужна мера общей дисперсии, которая велика, когда ваши переменные не зависят друг от друга, и очень мала, когда переменные сильно коррелируют, вы можете использовать определитель ковариационной матрицы: | C | ,
Пожалуйста, смотрите эту статью для лучшего разъяснения.
источник
Если вам нужно только одно число, то я предлагаю наибольшее собственное значение ковариационной матрицы. Это также объясняется дисперсией первого основного компонента в PCA. Он говорит вам, сколько общей дисперсии можно объяснить, если вы уменьшите размерность вашего вектора до единицы. Смотрите этот ответ по математике SE.
Идея состоит в том, чтобы свести ваш вектор в одно измерение, объединяя все переменные линейно в один ряд. Вы в конечном итоге с проблемой 1d.
Объясненная дисперсия может быть представлена в% от общей дисперсии. В этом случае вы сразу увидите, есть ли линейная корреляция между рядами. В некоторых приложениях это число может быть 80% и выше, например, моделирование кривой процентной ставки в финансах. Это означает, что вы можете построить линейную комбинацию переменных, которая объясняет 80 дисперсии всех переменных.
источник
И это зависит от определителя ковариационной матрицы, как предполагает @ user603.
источник