PCA негауссовых данных

20

У меня есть пара быстрых вопросов о PCA:

  • Предполагает ли PCA, что набор данных является гауссовским?
  • Что происходит, когда я применяю PCA к нелинейным данным?

Учитывая набор данных, процесс должен сначала нормализовать среднее значение, установить дисперсию 1, взять SVD, уменьшить ранг и, наконец, отобразить набор данных в новое пространство с пониженным рангом. В новом пространстве каждое измерение соответствует «направлению» максимальной дисперсии.

  • Но всегда ли корреляция этого набора данных в новом пространстве равна нулю, или это верно только для данных, которые по своей природе гауссовы?

Предположим, у меня есть два набора данных, «A» и «B», где «A» соответствует случайно выбранным точкам, взятым из гауссиана, а «B» соответствует точкам, случайно выбранным из другого распределения (скажем, по Пуассону).

  • Как PCA (A) сравнивается с PCA (B)?
  • Посмотрев на точки в новом пространстве, как бы я определил, что PCA (A) соответствует точкам, отобранным из гауссиана, а PCA (B) соответствует точкам, отобранным из Пуассона?
  • Является ли соотношение точек в «А» 0?
  • Корреляция точек в "B" также 0?
  • Что еще более важно, я задаю «правильный» вопрос?
  • Должен ли я посмотреть на корреляцию, или есть другая метрика, которую я должен рассмотреть?
Вишал
источник
2
См. Приложение о допущениях PCA в этой статье .
предполагается нормальным

Ответы:

17

У вас уже есть несколько хороших ответов (+1 к @ Cam.Davidson.Pilon & @MichaelChernick). Позвольте мне высказать пару моментов, которые помогут мне подумать об этой проблеме.

Во-первых, PCA работает по корреляционной матрице. Таким образом, мне кажется, важный вопрос заключается в том, имеет ли смысл использовать матрицу корреляции, чтобы помочь вам подумать о ваших данных. Например, корреляция между произведением и моментом Пирсона оценивает линейную зависимость между двумя переменными; если ваши переменные связаны, но не линейно, корреляция не является идеальной метрикой для индексации силы отношений. ( Вот хорошее обсуждение резюме о корреляции и ненормальных данных.)

Во-вторых, я думаю, что самый простой способ понять, что происходит с PCA, это то, что вы просто вращаете свои оси. Конечно, вы можете делать больше вещей, и, к сожалению, PCA путают с факторным анализом (который определенно имеет большее значение). Тем не менее, обычный старый PCA без наворотов, можно представить следующим образом:

  • у вас есть несколько точек, нанесенных в двух измерениях на листе миллиметровки;
  • у вас есть прозрачность с нарисованными на ней ортогональными осями и точечное отверстие в начале координат;
  • Вы центрируете источник прозрачности (т.е. отверстие) над и вставляете кончик карандаша в отверстие, чтобы удерживать его на месте; (Икс¯,Y¯)
  • затем вы поворачиваете прозрачность до тех пор, пока точки (при индексации по осям прозрачности вместо исходных) не будут коррелированными.

Это не идеальная метафора для PCA (например, мы не масштабировали отклонения до 1). Но дает людям основную идею. Теперь нужно использовать это изображение, чтобы подумать о том, как будет выглядеть результат, если данные не были гауссовыми для начала; это поможет вам решить, стоит ли этот процесс делать. Надеюсь, это поможет.

Gung - Восстановить Монику
источник
2
+1 (давно). Я думаю, что это лучший ответ в этой теме, надеюсь, он соберет еще один голос, чтобы стать самым голосуемым. Мне нравится ваш способ объяснения PCA с прозрачностью, это приятно.
говорит амеба: восстанови Монику
Кстати, этот ваш ответ вдохновил меня на недавний ответ в нашей огромной ветке PCA, посвященной непрофессионалам: я сделал эти анимированные гифки с учетом вашей аналогии с прозрачностью.
амеба говорит восстановить монику
Это отличный ответ, @amoeba. Это намного лучше, чем это.
gung - Восстановить Монику
13

Я могу дать частичное решение и показать ответ для вашего второй абзацвес1вес2Иксвес1Иксвес2Икс

Соv(Иксвес1,Иксвес2)знак равноЕ[(Иксвес1)Т(Иксвес2)]-Е[Иксвес1]ТЕ[Иксвес2]
весяИкс
вес1ТЕ[ИксТИкс]вес2знак равноВaр(Икс)вес1Твес2знак равно0
весяВaр(Икс)

ИксИксвесИксИксвес

α

Cam.Davidson.Pilon
источник
7

В PCA не предполагается линейности или нормальности. Идея состоит в том, чтобы просто разложить вариацию в p-мерном наборе данных на ортогональные компоненты, которые упорядочены в соответствии с количеством объясненной дисперсии.

Майкл Р. Черник
источник
2
Верно, но «разложение вариации в p-мерном наборе данных на ортогональные компоненты» не очень полезно, когда между переменными существуют нелинейные зависимости, так как ортогонализация обычно делалась так, что вы можете утверждать, что измерения не связаны (что является также связано с гауссовой частью вопроса). Когда вы делаете PCA и планируете интерпретировать результаты обычным способом, есть основополагающее предположение, что данные живут в линейном подпространстве более низкого измерения .
Макро
2
@Macro Не совсем так. Я бы сказал, что основополагающее предположение состоит в том, что, по крайней мере, большая часть изменчивости и, следовательно, структуры данных сконцентрирована в некотором пространстве более низких измерений. Я очень хорошо вижу параболу в двухмерном пространстве с ортогональными компонентами. Я думаю, что нелинейные формы можно рассматривать в двух или трех измерениях. Если данные поступают из многомерного гауссова распределения, то в некотором подпространстве точки должны выглядеть как эллипсоидальное облако. Распределение не должно выглядеть как эллипсоид, чтобы его представление в подпространстве высоких компьютеров было интересным.
Майкл Р. Черник
4
Я бы немного квалифицировал это. В классическом PCA или PCA SVD нет предположения о нормальности. Однако EM-алгоритмы для вычисления PCA с отсутствующими данными будут предполагать нормальность и линейность.
Джон
Хотя классическая дорога к PCA не нуждается в каких-либо допущениях, есть и другой путь к ее решению: вероятностный PCA с нулевым шумом измерения.
Bayerj
3

Читая страницу 7 здесь:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

они отмечают, что PCA предполагает, что распределение того, что мы объясняем, может быть описано средним (от нуля) и одной только дисперсией, которая, по их словам, может быть только нормальным распределением.

(В основном в дополнение к ответу Кэма, но у меня недостаточно репутации, чтобы комментировать:)

user3264325
источник
1
Ссылка, которую вы предоставили на учебник Shlens, относится к версии 1 учебника, но версия 3.02 (окончательная версия?) Теперь доступна, и этот конкретный пункт был удален. Также этот вопрос задавали именно об этом.
Орен Мильман
0

Насколько я знаю, PCA не предполагает нормальность данных. Но если он нормально распределен (в более общем смысле, симметрично распределен), то результат будет более устойчивым. Как говорят другие люди, ключевым моментом является то, что PCA основан на матрице коэффициентов корреляции Пирсона, на оценку которой влияют выбросы и асимметричное распределение. Таким образом, при некотором анализе, таком как статистический тест или р-значение, вам следует больше заботиться о том, удовлетворяется ли нормальность; но в других приложениях, таких как исследовательский анализ, вы можете использовать его, но будьте осторожны только при интерпретации.

KarlHuang
источник
-1

Договорились с другими, кто сказал, что данные должны быть «нормально» распределены. Любой дистрибутив будет перекрываться с нормальным дистрибутивом, если вы преобразуете его. Если ваше распределение не является нормальным, результаты, которые вы получите, будут хуже по сравнению со случаем, когда это нормально, как утверждают некоторые здесь ...

  • Вы можете изменить свой дистрибутив, если вам нужно.
  • Вы можете выбрать PCA и использовать вместо этого Независимый компонентный анализ (ICA).

Если вы прочтете ссылку в первом ответе, в разделе Приложения будет указано, что это нормальное распределение.

ясень
источник