Являются ли компоненты PCA (в анализе главных компонентов) статистически независимыми, если наши данные многомерны и нормально распределены? Если да, то как это можно продемонстрировать / доказать?
Я спрашиваю, потому что я видел этот пост , где верхний ответ гласит:
PCA не делает явного предположения гауссовости. Он находит собственные векторы, которые максимизируют дисперсию, объясненную в данных. Ортогональность основных компонентов означает, что он находит наиболее некоррелированные компоненты, чтобы объяснить как можно больше изменений в данных. Для многомерных гауссовых распределений нулевая корреляция между компонентами подразумевает независимость, которая не верна для большинства распределений.
Ответ формулируется без доказательства и, по-видимому, подразумевает, что PCA производит независимые компоненты, если данные многомерны нормальны.
В частности, скажем, наши данные являются образцами из:
мы помещаем выборок в строки нашей матрицы выборок , поэтому равно . Вычисление SVD (после центрирования) дает
Можем ли мы сказать, что столбцы статистически независимы, а также строки ? В общем, верно ли это только для или нет вообще?
источник
Ответы:
Начну с интуитивной демонстрации.
Я сгенерировал наблюдений (а) из сильно негауссовского 2D-распределения и (b) из 2D-гауссовского распределения. В обоих случаях я центрировал данные и выполнил разложение по сингулярным числам X = U S V ⊤ . Затем для каждого случая я составил график рассеяния первых двух столбцов U , один против другого. Обратите внимание, что обычно это столбцы U S , которые называются «основными компонентами» (ПК); столбцы U - это ПК, масштабируемые до единичной нормы; до сих пор, в этом ответе я сосредоточусь на столбцах U . Вот точечные диаграммы:n=100 X=USV⊤ U US U U
Я думаю, что такие утверждения, как «компоненты PCA являются некоррелированными» или «компоненты PCA являются зависимыми / независимыми», обычно делаются относительно одной конкретной матрицы образцов и относятся к корреляциям / зависимостям между строками (см., Например , ответ @ ttnphns здесь ). PCA дает преобразованную матрицу данных U , где строки - наблюдения, а столбцы - переменные ПК. Т.е. мы можем рассмотреть U как образец и спросить, какова выборочная корреляция между переменными ПК. Эта выборочная корреляционная матрица, конечно, задается как U ⊤ U = IX U U U⊤U=I Это означает, что выборочные корреляции между переменными ПК равны нулю. Это то, что люди имеют в виду, когда говорят, что «PCA диагонализирует ковариационную матрицу» и т. Д.
Вывод 1: в координатах PCA любые данные имеют нулевую корреляцию.
Это верно для обоих графиков рассеяния выше. Однако сразу очевидно, что две переменные ПК и y на левой (негауссовой) диаграмме рассеяния не являются независимыми; даже несмотря на то, что они имеют нулевую корреляцию, они сильно зависят и фактически связаны a y ≈ a ( x - b ) 2 . И действительно, общеизвестно, что некоррелированный не означает независимость .x y y≈a(x−b)2
Напротив, две переменные ПК и y на правой (гауссовой) диаграмме рассеяния кажутся «в значительной степени независимыми». Вычисление взаимной информации между ними (которая является мерой статистической зависимости: независимые переменные имеют нулевую взаимную информацию) любым стандартным алгоритмом даст значение, очень близкое к нулю. Это не будет точно ноль, потому что это никогда не будет точно ноль для любого конечного размера выборки (если не настроен точно); кроме того, существуют различные методы для вычисления взаимной информации двух образцов, дающие несколько разные ответы. Но мы можем ожидать, что любой метод даст оценку взаимной информации, которая очень близка к нулю.x y
Вывод 2: в координатах PCA гауссовы данные «в значительной степени независимы», что означает, что стандартные оценки зависимости будут около нуля.
Вопрос, однако, более сложный, о чем свидетельствует длинная цепочка комментариев. Действительно, @whuber справедливо указывает на то, что переменные PCA и y (столбцы U ) должны быть статистически зависимыми: столбцы должны иметь единичную длину и быть ортогональными, и это вводит зависимость. Например, если какое-либо значение в первом столбце равно 1 , то соответствующее значение во втором столбце должно быть 0 .x y U 1 0
Это верно, но актуально только для очень маленьких , таких как, например, n = 3 (с n =n n=3 после центрирования есть только один ПК). Для любого разумного размера выборки, такого как n = 100, показанного на моем рисунке выше, эффект зависимости будет незначительным; столбцы U являются (масштабированными) проекциями гауссовых данных, поэтому они также являются гауссовыми, что делает практически невозможным, чтобы одно значение было близко к 1 (это потребовало бы, чтобы все остальные n - 1 элементов были близки к 0 , что вряд ли распределение Гаусса).n=2 n=100 U 1 n−1 0
Вывод 3: строго говоря, для любого конечного гауссовы данные в координатах PCA являются зависимыми; однако эта зависимость практически не имеет значения для любого n ≫ 1 .n n≫1
Мы можем уточнить это, рассмотрев, что происходит в пределе . В пределе бесконечного размера выборки ковариационная матрица выборки равна ковариационной матрице заселения Σ . Таким образом , если вектор данных X выборка из → Х ~ N ( 0 , Σ ) , то переменные являются ПК → Y = Λ - 1 / 2n→∞ Σ X X⃗ ∼N(0,Σ) (где Λ и VY⃗ =Λ−1/2V⊤X⃗ /(n−1) Λ V являются собственными значениями и собственными векторами ) и → Y ∼ N ( 0 , I / ( n - 1 ) ) . Т.е. переменные ПК происходят из многомерного гаусса с диагональной ковариацией. Но любой многомерный гауссов с диагональной ковариационной матрицей разлагается в произведение одномерных гауссианов, и это определение статистической независимости :Σ Y⃗ ∼N(0,I/(n−1))
Вывод 4: асимптотически ( ) переменные PC гауссовых данных статистически независимы как случайные величины, и выборочная взаимная информация даст значение совокупности ноль.n→∞
Я должен отметить, что этот вопрос можно понять по-разному (см. Комментарии @whuber): рассмотреть всю матрицу случайной величиной (полученной из случайной матрицы X посредством определенной операции) и спросить, есть ли какие-либо два конкретных элемента U i J и U к л из двух разных столбцов статистически независимы в различных розыгрышах X . Мы исследовали этот вопрос в этой более поздней теме .U X Uij Ukl X
Вот все четыре предварительных вывода сверху:
источник