Использование анализа основных компонентов против анализа соответствия

9

Я анализирую набор данных, касающихся литоральных сообществ. Данные представляют собой процент покрытия (водорослей, ракушек, мидий и т. Д.) В квадратах. Я привык думать об анализе соответствия (CA) с точки зрения количества видов , а анализ основных компонентов (PCA) как о чем-то более полезном для линейных тенденций окружающей среды (не видов). Мне не очень повезло выяснить, будет ли PCA или CA лучше подходить для покрытия процентов (не могу найти какие-либо документы), и я даже не уверен, как будет распространяться что-то, что ограничено до 100%. ?

Я знаком с грубым указанием, что если длина первой оси анализа соответствия с детрендами (DCA) больше 2, то можно смело предполагать, что CA следует использовать. Длина оси 1 DCA была 2,17, что я не считаю полезным.

HFBrowning
источник
3
И PCA, и CA связаны, и оба могут быть основаны на алгоритме SVD. Принципиальное формальное отличие (не упомянутое в глубоком ответе @ Gavin) состоит в том, что PCA разлагает отношения только между столбцами (например, путем разложения их ковариационной матрицы), рассматривая строки как «падежи»; в то время как CA разлагает столбцы и строки одновременно, обрабатывая их симметрично, как кросс-табулирование «категорий». Следовательно, оставленный CA биплот и квазибиплот (нагрузки + баллы), которые можно построить после PCA, дают концептуально совершенно иную информацию.
ttnphns

Ответы:

9

PCA работает со значениями, где CA работает с относительными значениями. Оба подходят для данных относительного обилия того типа, который вы упомянули (с одним важным предупреждением, см. Позже). С% данных у вас уже есть относительный показатель, но все равно будут различия. Спроси себя

  • Вы хотите подчеркнуть закономерность в обильных видах / таксонах (т.е. в тех, которые имеют большой% покрытия), или
  • Вы хотите сосредоточиться на закономерностях относительного состава?

Если первое, используйте PCA. Если последний использует CA. Что я имею в виду под этими двумя вопросами, вы бы хотели

A = {50, 20, 10}
B = { 5,  2,  1}

считаться другим или одинаковым? Aи Bпредставляют собой две выборки, а значения представляют собой% покрытия трех показанных таксонов. (Этот пример получился плохим, предположим, что есть пустая земля! ;-) PCA посчитал бы их очень разными из-за используемого евклидова расстояния, но CA посчитал бы, что эти две выборки очень похожи, потому что имеют одинаковый относительный профиль.

Большое предостережение - закрытая композиционная природа данных. Если у вас есть несколько групп (например, Sand, Silt, Clay) с суммой 1 (100%), то ни один из подходов не является правильным, и вы можете перейти к более подходящему анализу с помощью логарифмического коэффициента Aitchison PCA, который был разработан для закрытых композиционных композиций. данные. (Для этого IIRC необходимо центрировать по строкам и столбцам и преобразовывать данные в журнал.) Есть и другие подходы. Если вы используете R, то одна книга , которая будет полезна в анализе Композиционный данных с R .

Гэвин Симпсон
источник
Как всегда, действительно отличный ответ Гэвина. Спасибо! Это многое проясняет, и тогда я буду использовать PCA. Учитывая, что литоральное сообщество является трехмерным, процентное покрытие фактически возросло на 100% в некоторых случаях, когда организмы росли друг над другом. Это не закрытая композиционная форма, о которой вы говорите, верно?
HFBrowning
Нет, это не то, о чем он говорит. Под закрытым я полагаю, что он имеет в виду систему, в которой с тремя видами A, B, C у вас есть% C = 100% -% B -% A
Pertinax
а как насчет DCA?
Дарвин ПК
DCA - это испорченная версия CA, поэтому к ней применяются те же общие принципы. DCA делает некоторые странные пытки данных, и я не думаю, что нам нужно использовать его как метод в нашем наборе инструментов сегодня, но мнения других по этому поводу будут различаться.
Гэвин Симпсон