Для данной матрицы данных (с переменными в столбцах и точками данных в строках) кажется, что играет важную роль в статистике. Например, это важная часть аналитического решения обычных наименьших квадратов. Или, для PCA, его собственные векторы являются основными компонентами данных.
Я понимаю, как рассчитать , но мне было интересно, есть ли интуитивная интерпретация того, что представляет эта матрица, что приводит к ее важной роли?
Ответы:
Геометрически матрица называется матрицей скалярных произведений (= точечные произведения, = внутренние произведения). Алгебраически это называется матрицей суммы квадратов и кросс-произведений ( SSCP ).A′A
Его диагональный элемент равен , где обозначает значения в столбце а - сумма по строкам. -го недиагональных элемента в ней есть .i ∑a2(i) a(i) i A ∑ ij ∑a(i)a(j)
Существует ряд важных коэффициентов ассоциации, и их квадратные матрицы называются угловыми сходствами или подобиями типа SSCP:
Разделив матрицу SSCP на , размер выборки или количество строк , вы получите матрицу MSCP (среднеквадратичное и перекрестное произведение). Следовательно, попарной формулой этой меры ассоциации является (векторы и представляют собой пару столбцов из ).n A ∑xyn x y A
Если вы центрируете столбцы (переменные) в , то - это матрица рассеяния (или совместного рассеяния, если быть строгой), а - ковариация матрица. Попарная формула ковариации имеет вид где и обозначают центрированные столбцы.A A′A A′A/(n−1) ∑cxcyn−1 cx cy
Если вы z- стандартизируете столбцы (вычтите среднее значение столбца и поделите на стандартное отклонение), то - это корреляционная матрица Пирсона : корреляция - это ковариация для стандартизированных переменных. Попарная формула корреляции: где и обозначают стандартизированные столбцы. Корреляция также называется коэффициентом линейности.A A′A/(n−1) ∑zxzyn−1 zx zy
Если вы масштабируете столбцы (приводите их SS, сумму квадратов к 1), то - это матрица сходства косинусов . Таким образом, эквивалентная попарная формула выглядит так: с и обозначающими L2-нормализованные столбцы , Косинусное сходство также называют коэффициентом пропорциональности.A A′A ∑uxuy=∑xy∑x2√∑y2√ ux uy
Если центр , а затем Unit- масштаб столбцы , то снова Пирсон Корреляция матрица, так как корреляция косинус для центрированных переменных :A A′A 1,2 ∑cuxcuy=∑cxcy∑c2x√∑c2y√
Наряду с этими четырьмя основными мерами ассоциации, давайте также упомянем некоторые другие, также основанные на , чтобы его. Их можно рассматривать как меры, альтернативные косинусному подобию, поскольку они принимают отличную от него нормировку, знаменатель в формуле:A′A
Коэффициент идентичности [Zegers & ten Berge, 1985] имеет свой знаменатель в виде среднего арифметического, а не среднего геометрического: . Это может быть 1, если и только если сравниваемые столбцы идентичны.∑xy(∑x2+∑y2)/2 A
Другой используемый коэффициент, называемый коэффициентом сходства : .∑xy∑x2+∑y2−∑xy=∑xy∑xy+∑(x−y)2
Наконец, если значения в неотрицательны и их сумма в столбцах равна 1 (например, они являются пропорциями), то - это матрица верности или коэффициент Бхаттачария .A A−−√′A−−√
источник
Матрица содержит все скалярные произведения всех столбцов в . Таким образом, диагональ содержит квадраты норм столбцов. Если вы думаете о геометрии и ортогональных проекциях на пространство столбцов, охватываемых столбцами в вы можете вспомнить, что нормы и внутренние произведения векторов, охватывающих это пространство, играют центральную роль в вычислении проекции. Регрессия наименьших квадратов, а также главные компоненты могут быть поняты в терминах ортогональных проекций.ATA A A
Также отметим, что если столбцы ортонормированы, тем самым образуя ортонормированный базис для пространства столбцов, то единичная матрица.A ATA=I −
источник
@NRH дал хороший технический ответ.
Если вы хотите что-то действительно простое, вы можете думать о как о матричном эквиваленте для скаляра.ATA A2
источник
Важный взгляд на геометрию заключается в следующем (точка зрения, сильно подчеркнутая в книге Странга «Линейная алгебра и ее приложения»): Предположим, что A является -матрицей ранга k, представляющей линейное отображение . Пусть Col (А) и строки (А) столбцы и строки пространство . затемA′A m×n A:Rn→Rm A
(a) В качестве вещественной симметричной матрицы имеет базис собственных векторов с ненулевыми собственными значениями , Таким образом:(A′A):Rn→Rn {e1,...,en} d1,…,dk
(б) Диапазон (A) = Col (A), по определению Col (A). Таким образом, A | Row (A) отображает строку (A) в Col (A).
(c) Ядро (A) является ортогональным дополнением строки (A). Это связано с тем, что умножение матриц определяется в терминах точечных произведений (строка i) * (col j). (Таким образом,Av′=0⟺v is in Kernel(A)⟺vis in orthogonal complement of Row(A)
(d) и является изоморфизмом ,A(Rn)=A(Row(A)) A|Row(A):Row(A)→Col(A)
[Между прочим, дает доказательство того, что ранг строки = ранг столбца!]
(e) Применение (d), является изоморфизмомA′|:Col(A)=Row(A)→Col(A')=Row(A)
(f) В силу (d) и (e): и A'A отображает Row (A) изоморфно в Row (A).A′A(Rn)=Row(A)
источник
Хотя уже обсуждалось, что имеет смысл брать точечные произведения, я бы добавил только графическое представление этого умножения.ATA
Действительно, в то время как строки матрицы (и столбцы матрицы ) представляют переменные, мы рассматриваем каждую переменную измерения как многомерный вектор. Умножение строки в на столбец в эквивалентно взятию точечного произведения двух векторов: - результатом является запись в позиции внутри матрицы .AT A rowp AT colp A dot(rowp,colp) (p,p) ATA
Аналогично, умножение строки из на столбец из эквивалентно произведению точки: с результатом в позиции .p AT k A dot(rowp,colk) (p,k)
Запись результирующей матрицы имеет значение того, насколько вектор находится в направлении вектора . Если скалярное произведение двух векторов и отличен от нуля, некоторые сведения о векторной будет осуществляться вектором , и наоборот.(p,k) ATA rowp colk rowi colj rowi colj
Эта идея играет важную роль в анализе главных компонентов, где мы хотим найти новое представление нашей исходной матрицы данных , чтобы больше не было никакой информации о любом столбце в любом другом столбце , Изучая PCA глубже, вы увидите, что вычисляется «новая версия» ковариационной матрицы, и она становится диагональной матрицей, которую я оставляю вам, чтобы понять, что ... на самом деле это означает то, что я выразил в предыдущем предложении.A i j≠i
источник
Есть уровни интуиции. Для тех, кто знаком с матрицей матричной нотации, интуиция должна думать о ней как о квадрате случайной величины: противx→E[x2] A→ATA
В матричной записи выборка случайной величины наблюдений или совокупности представлена вектором столбцов:x xi a=⎡⎣⎢⎢⎢x1x2…xn⎤⎦⎥⎥⎥
Итак, если вы хотите получить примерное среднее квадрата переменной , вы просто получите скалярное произведение , которое в матричной записи совпадает с .x x2¯=a⋅an ATA
Обратите внимание, что если выборочное среднее значение переменной равно нулю, то дисперсия равна среднему значению квадрата: что аналогично . Это причина, почему в PCA вам нужно нулевое среднее, и почему появляется после того, как все PCA должны разложить матрицу отклонений набора данных.σ2=E[x2] ATA ATA
источник