Почему оценки основных компонентов некоррелированы?

9

Supose - это матрица среднецентрированных данных. Матрица равна , имеет различных собственных значений и собственные векторы , ... , которые являются ортогональными.S = cov ( A ) m × m m s 1 s 2 s mAS=cov(A)m×mms1s2sm

-м главный компонент (некоторые люди называют их «десятки») является вектор . Другими словами, это линейная комбинация столбцов , где коэффициенты являются составными частями -м собственным вектором .z i = A s i A i Sizi=AsiAiS

Я не понимаю, почему и оказываются некоррелированными для всех . Следует ли это из того факта, что и ортогональны? Конечно, нет, потому что я легко могу найти матрицу и пару ортогональных векторов таких что и коррелированы.z j ij s i s j B x , y B x B yzizjijsisjBx,yBxBy

Эрнест А
источник
Соответствующий ответ stats.stackexchange.com/a/110546/3277 .
ttnphns

Ответы:

7

zizj=(Asi)(Asj)=siAAsj=(n1)siSsj=(n1)siλjsj=(n1)λjsisj=0.
амеба
источник
1
Математика: какой красивый язык.
Нестор
4
Это означает, что и ортогональны. Некоррелированный означает, что это должно быть правдой: . Я полагаю, что , а затем также подразумевает, что они некоррелированы. zizj(ziz¯i)(zjz¯j)=0z¯i=z¯j=0zizj=0
Эрнест А
2
Хороший вопрос, @Ernest. Средние значения действительно равны нулю, потому что данные были средне-центрированы (по вашему предположению). Тогда все проекции должны иметь среднее значение ноль.
амеба
2
@Jubbles потому что , поэтому=(п-1)S. S=cov(A)=1n1AAAA=(n1)S
Эрнест А
2
@Ernest, я не мог удержаться от предоставления ответа, не содержащего текст, но, возможно, я должен добавить, что основная причина, по которой ПК не коррелированы, заключается в том, что их ковариационная матрица задается в базисе собственных векторов, и в этом базисе S становится диагональным - - вот и весь смысл собственного разложения. SS
амеба