В анализе главных компонентов (PCA) можно выбрать либо ковариационную матрицу, либо матрицу корреляции, чтобы найти компоненты (из их соответствующих собственных векторов). Они дают разные результаты (загрузки ПК и оценки), потому что собственные векторы между обеими матрицами не равны. Насколько я понимаю, это связано с тем, что вектор необработанных данных и его стандартизация Z не могут быть связаны посредством ортогонального преобразования. Математически подобные матрицы (то есть связанные ортогональным преобразованием) имеют одинаковые собственные значения, но не обязательно одинаковые собственные векторы.
Это вызывает некоторые трудности в моей голове:
Имеет ли смысл PCA, если вы можете получить два разных ответа для одного и того же набора исходных данных, оба пытаясь достичь одного и того же (= найти направления максимальной дисперсии)?
При использовании подхода с корреляционной матрицей каждая переменная стандартизируется (масштабируется) по собственному индивидуальному стандартному отклонению перед вычислением ПК. Как же тогда все-таки имеет смысл находить направления максимальной дисперсии, если данные уже были предварительно по-разному масштабированы / сжаты? Я знаю, что PCA, основанный на корреляции, очень удобен (стандартизированные переменные являются безразмерными, поэтому их линейные комбинации могут быть добавлены; другие преимущества также основаны на прагматизме), но верно ли это?
Мне кажется, что PCA на основе ковариации является единственным действительно правильным (даже когда дисперсии переменных сильно различаются), и что всякий раз, когда эту версию нельзя использовать, PCA на основе корреляции также не следует использовать.
Я знаю, что есть эта тема: PCA на корреляции или ковариации? - но, похоже, он сосредоточен только на поиске прагматического решения, которое может быть, а может и не быть алгебраически правильным.
источник
Ответы:
Я надеюсь, что эти ответы на ваши два вопроса успокоят ваше беспокойство:
Следующий текст и фотографии добавлены @whuber (благодарю его. Также смотрите мой комментарий ниже)
Вот двумерный пример, показывающий, почему все еще имеет смысл определять главные оси стандартизированных данных (показано справа). Обратите внимание, что на правом графике облако все еще имеет «форму», даже несмотря на то, что отклонения вдоль осей координат теперь точно равны (до 1,0). Точно так же в более высоких измерениях стандартизированное облако точек будет иметь несферическую форму, даже если отклонения по всем осям точно равны (до 1,0). Главные оси (с соответствующими значениями) описывают эту форму. Другой способ понять это - заметить, что все масштабирование и смещение, которые происходят при стандартизации переменных, происходят только в направлениях осей координат, а не в самих основных направлениях.
То, что здесь происходит, геометрически настолько интуитивно и ясно, что было бы сложно охарактеризовать это как «операцию черного ящика»: напротив, стандартизация и PCA - это одни из самых простых и рутинных вещей, которые мы делаем с данными в порядке чтобы понять их.
Продолжение @ttnphns
Когда бы вы предпочли сделать PCA (или факторный анализ или другой подобный тип анализа) на корреляциях (то есть на z-стандартизированных переменных) вместо того, чтобы делать это на ковариациях (то есть на центрированных переменных)?
источник
Если говорить с практической точки зрения - возможно, непопулярной здесь - если у вас есть данные, измеренные в разных масштабах, то используйте корреляцию («УФ-масштабирование», если вы хемометрик), но если переменные находятся в одном масштабе, и размер их имеет значение (например, со спектроскопическими данными), тогда ковариация (центрирование только данных) имеет больше смысла. PCA - это метод, зависящий от масштаба, а также преобразование журналов может помочь с сильно искаженными данными.
По моему скромному мнению, основываясь на 20-летнем практическом применении хемометрики, вам нужно немного поэкспериментировать и посмотреть, что лучше всего подходит для вашего типа данных. В конце дня вы должны быть в состоянии воспроизвести ваши результаты и попытаться доказать предсказуемость ваших выводов. То, как вы туда попадаете, часто бывает методом проб и ошибок, но важно то, что вы делаете, документированы и воспроизводимы.
источник
источник
There seems little point
в PCA о корреляциях. Что ж, если вам нужно оставаться близко к необработанным данным («физическим данным», как вы их странно называете), вам не следует использовать корреляции, поскольку они соответствуют другим («искаженным») данным.X'X
матрице. Эта форма даже «ближе» к исходным данным, чем cov-PCA, потому что не производится центрирование переменных. И результаты, как правило, совершенно разные . Вы также можете сделать PCA на косинус. Люди делают PCA на всех версиях матрицы SSCP , хотя ковариации или корреляции используются чаще всего.