У меня есть пара быстрых вопросов о PCA:
- Предполагает ли PCA, что набор данных является гауссовским?
- Что происходит, когда я применяю PCA к нелинейным данным?
Учитывая набор данных, процесс должен сначала нормализовать среднее значение, установить дисперсию 1, взять SVD, уменьшить ранг и, наконец, отобразить набор данных в новое пространство с пониженным рангом. В новом пространстве каждое измерение соответствует «направлению» максимальной дисперсии.
- Но всегда ли корреляция этого набора данных в новом пространстве равна нулю, или это верно только для данных, которые по своей природе гауссовы?
Предположим, у меня есть два набора данных, «A» и «B», где «A» соответствует случайно выбранным точкам, взятым из гауссиана, а «B» соответствует точкам, случайно выбранным из другого распределения (скажем, по Пуассону).
- Как PCA (A) сравнивается с PCA (B)?
- Посмотрев на точки в новом пространстве, как бы я определил, что PCA (A) соответствует точкам, отобранным из гауссиана, а PCA (B) соответствует точкам, отобранным из Пуассона?
- Является ли соотношение точек в «А» 0?
- Корреляция точек в "B" также 0?
- Что еще более важно, я задаю «правильный» вопрос?
- Должен ли я посмотреть на корреляцию, или есть другая метрика, которую я должен рассмотреть?
Ответы:
У вас уже есть несколько хороших ответов (+1 к @ Cam.Davidson.Pilon & @MichaelChernick). Позвольте мне высказать пару моментов, которые помогут мне подумать об этой проблеме.
Во-первых, PCA работает по корреляционной матрице. Таким образом, мне кажется, важный вопрос заключается в том, имеет ли смысл использовать матрицу корреляции, чтобы помочь вам подумать о ваших данных. Например, корреляция между произведением и моментом Пирсона оценивает линейную зависимость между двумя переменными; если ваши переменные связаны, но не линейно, корреляция не является идеальной метрикой для индексации силы отношений. ( Вот хорошее обсуждение резюме о корреляции и ненормальных данных.)
Во-вторых, я думаю, что самый простой способ понять, что происходит с PCA, это то, что вы просто вращаете свои оси. Конечно, вы можете делать больше вещей, и, к сожалению, PCA путают с факторным анализом (который определенно имеет большее значение). Тем не менее, обычный старый PCA без наворотов, можно представить следующим образом:
Это не идеальная метафора для PCA (например, мы не масштабировали отклонения до 1). Но дает людям основную идею. Теперь нужно использовать это изображение, чтобы подумать о том, как будет выглядеть результат, если данные не были гауссовыми для начала; это поможет вам решить, стоит ли этот процесс делать. Надеюсь, это поможет.
источник
Я могу дать частичное решение и показать ответ для вашеговес1 вес2 Иксвес1 Иксвес2 Икс
второй абзацисточник
В PCA не предполагается линейности или нормальности. Идея состоит в том, чтобы просто разложить вариацию в p-мерном наборе данных на ортогональные компоненты, которые упорядочены в соответствии с количеством объясненной дисперсии.
источник
Читая страницу 7 здесь:
http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
они отмечают, что PCA предполагает, что распределение того, что мы объясняем, может быть описано средним (от нуля) и одной только дисперсией, которая, по их словам, может быть только нормальным распределением.
(В основном в дополнение к ответу Кэма, но у меня недостаточно репутации, чтобы комментировать:)
источник
Насколько я знаю, PCA не предполагает нормальность данных. Но если он нормально распределен (в более общем смысле, симметрично распределен), то результат будет более устойчивым. Как говорят другие люди, ключевым моментом является то, что PCA основан на матрице коэффициентов корреляции Пирсона, на оценку которой влияют выбросы и асимметричное распределение. Таким образом, при некотором анализе, таком как статистический тест или р-значение, вам следует больше заботиться о том, удовлетворяется ли нормальность; но в других приложениях, таких как исследовательский анализ, вы можете использовать его, но будьте осторожны только при интерпретации.
источник
Договорились с другими, кто сказал, что данные должны быть «нормально» распределены. Любой дистрибутив будет перекрываться с нормальным дистрибутивом, если вы преобразуете его. Если ваше распределение не является нормальным, результаты, которые вы получите, будут хуже по сравнению со случаем, когда это нормально, как утверждают некоторые здесь ...
Если вы прочтете ссылку в первом ответе, в разделе Приложения будет указано, что это нормальное распределение.
источник