Я анализирую набор данных, касающихся литоральных сообществ. Данные представляют собой процент покрытия (водорослей, ракушек, мидий и т. Д.) В квадратах. Я привык думать об анализе соответствия (CA) с точки зрения количества видов , а анализ основных компонентов (PCA) как о чем-то более полезном для линейных тенденций окружающей среды (не видов). Мне не очень повезло выяснить, будет ли PCA или CA лучше подходить для покрытия процентов (не могу найти какие-либо документы), и я даже не уверен, как будет распространяться что-то, что ограничено до 100%. ?
Я знаком с грубым указанием, что если длина первой оси анализа соответствия с детрендами (DCA) больше 2, то можно смело предполагать, что CA следует использовать. Длина оси 1 DCA была 2,17, что я не считаю полезным.
источник
Ответы:
PCA работает со значениями, где CA работает с относительными значениями. Оба подходят для данных относительного обилия того типа, который вы упомянули (с одним важным предупреждением, см. Позже). С% данных у вас уже есть относительный показатель, но все равно будут различия. Спроси себя
Если первое, используйте PCA. Если последний использует CA. Что я имею в виду под этими двумя вопросами, вы бы хотели
считаться другим или одинаковым?
A
иB
представляют собой две выборки, а значения представляют собой% покрытия трех показанных таксонов. (Этот пример получился плохим, предположим, что есть пустая земля! ;-) PCA посчитал бы их очень разными из-за используемого евклидова расстояния, но CA посчитал бы, что эти две выборки очень похожи, потому что имеют одинаковый относительный профиль.Большое предостережение - закрытая композиционная природа данных. Если у вас есть несколько групп (например, Sand, Silt, Clay) с суммой 1 (100%), то ни один из подходов не является правильным, и вы можете перейти к более подходящему анализу с помощью логарифмического коэффициента Aitchison PCA, который был разработан для закрытых композиционных композиций. данные. (Для этого IIRC необходимо центрировать по строкам и столбцам и преобразовывать данные в журнал.) Есть и другие подходы. Если вы используете R, то одна книга , которая будет полезна в анализе Композиционный данных с R .
источник