Почему сферичность, диагностированная с помощью теста Бартлетта, означает, что PCA не подходит?

14

Я понимаю, что тест Бартлетта связан с определением, являются ли ваши выборки из групп с равными отклонениями.

Если образцы взяты из популяций с одинаковыми отклонениями, то мы не можем отклонить нулевую гипотезу теста, и поэтому анализ основных компонентов неуместен.

Я не уверен, где проблема в этой ситуации (с набором гомоскедастических данных) лежит. В чем проблема с набором данных, в котором основное распределение всех ваших данных одинаково? Я просто не вижу большого дела, если это условие существует. Почему это делает PCA неуместным?

Я не могу найти какую-либо хорошую информацию в Интернете. Кто-нибудь имеет опыт интерпретации, почему этот тест имеет отношение к PCA?

Мэтт О'Брайен
источник

Ответы:

15

В ответ на название вопроса.

1

Теперь представьте, что многомерное облако идеально сферически (т.е. его ковариационная матрица пропорциональна единичной матрице). Тогда 1) любые произвольные измерения могут служить основными компонентами, поэтому решение PCA не является уникальным; 2) все компоненты имеют одинаковые отклонения (собственные значения), поэтому PCA не может помочь уменьшить данные.

Представьте себе второй случай, когда многомерное облако представляет собой эллипсоид с вытянутостью строго вдоль осей переменных (т. Е. Его ковариационная матрица диагональна: все значения равны нулю, кроме диагонали). Тогда вращение, подразумеваемое преобразованием PCA, будет равно нулю; главными компонентами являются сами переменные, только переупорядоченные и потенциально обращенные к знаку. Это тривиальный результат: PCA не потребовалось, чтобы отбросить некоторые слабые измерения для сокращения данных.


1

ttnphns
источник
13

Похоже, что есть два теста, называемые тестом Бартлетта . Тот, на который вы ссылались (1937), определяет, являются ли ваши выборки из групп с равными отклонениями. Другой, кажется, проверяет, является ли матрица корреляции для набора данных матрицей идентичности (1951). Более логично, что вы не будете запускать PCA для данных с матрицей корреляции идентификаторов, поскольку вы просто вернете свои исходные переменные, поскольку они уже некоррелированы. Сравните, например,

user42628
источник
2
+1 Это решает путаницу лучше, чем другой ответ.
HelloWorld