Являются ли компоненты PCA многомерных гауссовских данных статистически независимыми?

16

Являются ли компоненты PCA (в анализе главных компонентов) статистически независимыми, если наши данные многомерны и нормально распределены? Если да, то как это можно продемонстрировать / доказать?

Я спрашиваю, потому что я видел этот пост , где верхний ответ гласит:

PCA не делает явного предположения гауссовости. Он находит собственные векторы, которые максимизируют дисперсию, объясненную в данных. Ортогональность основных компонентов означает, что он находит наиболее некоррелированные компоненты, чтобы объяснить как можно больше изменений в данных. Для многомерных гауссовых распределений нулевая корреляция между компонентами подразумевает независимость, которая не верна для большинства распределений.

Ответ формулируется без доказательства и, по-видимому, подразумевает, что PCA производит независимые компоненты, если данные многомерны нормальны.

В частности, скажем, наши данные являются образцами из:

xN(μ,Σ)

мы помещаем n выборок x в строки нашей матрицы выборок X , поэтому X равно n×m . Вычисление SVD X (после центрирования) дает

X=USVT

Можем ли мы сказать, что столбцы U статистически независимы, а также строки VT ? В общем, верно ли это только для xN(μ,Σ) или нет вообще?

bill_e
источник
1
stats.stackexchange.com/q/110508/3277 - похожий вопрос.
ttnphns
1
Я не понимаю, как компьютеры можно считать «статистически независимыми» в более чем одном измерении. В конце концов, по определению, каждый ортогонален всем остальным; эта функциональная зависимость создает очень сильную статистическую зависимость.
whuber
1
@amoeba Я надеюсь , что я последовательно ясно, а также верным на вопрос, который я нахожу , чтобы быть четко сформулированы и однозначны: поскольку данные являются случайными, так что все записи в U . Я применил к ним определение статистической независимости. Это все. Похоже, ваша проблема в том, что вы используете слово «некоррелированный» в двух совершенно разных смыслах, казалось бы, не осознавая этого: в силу того, как построены столбцы U , они геометрически ортогональны как векторы в R n , но они никоим образом означает независимые случайные векторы! XUURn
whuber
1
@amoeba Вы правы - симуляция довольно убедительно показывает, что корреляция может быть (сильно) ненулевой. Однако я не оспариваю, что «компоненты PCA некоррелированы» в смысле «корреляция» = «ортогональны», и при этом я не говорю, что какой-то конкретный учебник неверен. Меня беспокоит то, что такое утверждение, правильно понятое, настолько не имеет отношения к вопросу, что все, что он может сделать (и сделал), - это серьезная путаница в нынешнем контексте.
whuber
1
@whuber, я уверен, что вы с нетерпением ждали еще одного издания моего ответа! Вот. Я явно признать свои пункты о зависимости, и сделать заявление , что столбцы являются асимптотически независимы, как мой основной точки. Здесь «асимптотически» относится к числу n наблюдений (строк). Я очень надеюсь, что мы сможем договориться об этом! Я также утверждаю, что для любого разумного n , такого как n = 100 , зависимость между столбцами "практически не имеет значения". Я думаю, это более спорный вопрос, но я стараюсь сделать его достаточно точным в своем ответе. Unnn=100
говорит амеба: восстанови Монику

Ответы:

23

Начну с интуитивной демонстрации.

Я сгенерировал наблюдений (а) из сильно негауссовского 2D-распределения и (b) из 2D-гауссовского распределения. В обоих случаях я центрировал данные и выполнил разложение по сингулярным числам X = U S V . Затем для каждого случая я составил график рассеяния первых двух столбцов U , один против другого. Обратите внимание, что обычно это столбцы U S , которые называются «основными компонентами» (ПК); столбцы U - это ПК, масштабируемые до единичной нормы; до сих пор, в этом ответе я сосредоточусь на столбцах U . Вот точечные диаграммы:n=100X=USVUUSUU

PCA of Gaussian and non-Gaussian data

Я думаю, что такие утверждения, как «компоненты PCA являются некоррелированными» или «компоненты PCA являются зависимыми / независимыми», обычно делаются относительно одной конкретной матрицы образцов и относятся к корреляциям / зависимостям между строками (см., Например , ответ @ ttnphns здесь ). PCA дает преобразованную матрицу данных U , где строки - наблюдения, а столбцы - переменные ПК. Т.е. мы можем рассмотреть U как образец и спросить, какова выборочная корреляция между переменными ПК. Эта выборочная корреляционная матрица, конечно, задается как UU = IXUUUU=IЭто означает, что выборочные корреляции между переменными ПК равны нулю. Это то, что люди имеют в виду, когда говорят, что «PCA диагонализирует ковариационную матрицу» и т. Д.

Вывод 1: в координатах PCA любые данные имеют нулевую корреляцию.

Это верно для обоих графиков рассеяния выше. Однако сразу очевидно, что две переменные ПК и y на левой (негауссовой) диаграмме рассеяния не являются независимыми; даже несмотря на то, что они имеют нулевую корреляцию, они сильно зависят и фактически связаны a y a ( x - b ) 2 . И действительно, общеизвестно, что некоррелированный не означает независимость .xyya(xb)2

Напротив, две переменные ПК и y на правой (гауссовой) диаграмме рассеяния кажутся «в значительной степени независимыми». Вычисление взаимной информации между ними (которая является мерой статистической зависимости: независимые переменные имеют нулевую взаимную информацию) любым стандартным алгоритмом даст значение, очень близкое к нулю. Это не будет точно ноль, потому что это никогда не будет точно ноль для любого конечного размера выборки (если не настроен точно); кроме того, существуют различные методы для вычисления взаимной информации двух образцов, дающие несколько разные ответы. Но мы можем ожидать, что любой метод даст оценку взаимной информации, которая очень близка к нулю.xy

Вывод 2: в координатах PCA гауссовы данные «в значительной степени независимы», что означает, что стандартные оценки зависимости будут около нуля.

Вопрос, однако, более сложный, о чем свидетельствует длинная цепочка комментариев. Действительно, @whuber справедливо указывает на то, что переменные PCA и y (столбцы U ) должны быть статистически зависимыми: столбцы должны иметь единичную длину и быть ортогональными, и это вводит зависимость. Например, если какое-либо значение в первом столбце равно 1 , то соответствующее значение во втором столбце должно быть 0 .xyU10

Это верно, но актуально только для очень маленьких , таких как, например, n = 3n =nn=3 после центрирования есть только один ПК). Для любого разумного размера выборки, такого как n = 100, показанного на моем рисунке выше, эффект зависимости будет незначительным; столбцы U являются (масштабированными) проекциями гауссовых данных, поэтому они также являются гауссовыми, что делает практически невозможным, чтобы одно значение было близко к 1 (это потребовало бы, чтобы все остальные n - 1 элементов были близки к 0 , что вряд ли распределение Гаусса).n=2n=100U1n10

Вывод 3: строго говоря, для любого конечного гауссовы данные в координатах PCA являются зависимыми; однако эта зависимость практически не имеет значения для любого n 1 .nn1

Мы можем уточнить это, рассмотрев, что происходит в пределе . В пределе бесконечного размера выборки ковариационная матрица выборки равна ковариационной матрице заселения Σ . Таким образом , если вектор данных X выборка из Х ~ N ( 0 , Σ ) , то переменные являются ПК Y = Λ - 1 / 2nΣXXN(0,Σ) (где Λ и VY=Λ1/2VX/(n1)ΛVявляются собственными значениями и собственными векторами ) и YN ( 0 , I / ( n - 1 ) ) . Т.е. переменные ПК происходят из многомерного гаусса с диагональной ковариацией. Но любой многомерный гауссов с диагональной ковариационной матрицей разлагается в произведение одномерных гауссианов, и это определение статистической независимости :ΣYN(0,I/(n1))

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

Вывод 4: асимптотически ( ) переменные PC гауссовых данных статистически независимы как случайные величины, и выборочная взаимная информация даст значение совокупности ноль.n

Я должен отметить, что этот вопрос можно понять по-разному (см. Комментарии @whuber): рассмотреть всю матрицу случайной величиной (полученной из случайной матрицы X посредством определенной операции) и спросить, есть ли какие-либо два конкретных элемента U i J и U к л из двух разных столбцов статистически независимы в различных розыгрышах X . Мы исследовали этот вопрос в этой более поздней теме .UXUijUklX


Вот все четыре предварительных вывода сверху:

  • В координатах PCA любые данные имеют нулевую корреляцию.
  • В координатах PCA гауссовы данные «в значительной степени независимы», что означает, что стандартные оценки зависимости будут около нуля.
  • nn1
  • n
амеба говорит восстановить монику
источник
Вы пишете «Однако, если данные являются многомерными гауссовскими, то они действительно независимы». «Они» являются основными компонентами и их коэффициентами? Что вы подразумеваете под PCA, диагонализует ковариационную матрицу? Благодарю за ваш ответ!
bill_e
«Они» относятся к основным компонентам (которые являются проекциями данных на направления максимальной дисперсии). PCA ищет направления максимальной дисперсии; Оказывается, что эти направления задаются собственными векторами ковариационной матрицы. Если вы измените координаты на «Координаты PCA», то ковариационная матрица будет диагональной, то есть так работает собственная декомпозиция. Эквивалентно матрицаSв СВД от вашего вопроса есть диагональная матрица. Также матрицаU is orthogonal, meaning that its covariance matrix is diagonal. All of that means that PCs have correlation zero.
amoeba says Reinstate Monica
Cool, thank you! The combination of your answer and this comment helps clear things up for me a lot. Can I edit your comment into your answer?
bill_e
I expanded the answer by incorporating the comment; see if you are happy with it now.
amoeba says Reinstate Monica
2
Interesting discussion! When I asked the question, my thought of statistical dependence was "if you know PC1, is it possible infer PC2?, etc." I will look more into independence tests based on mutual information now.
bill_e