Что такое «эффект подковы» и / или «эффект арки» в PCA / анализе соответствия?

20

Существует много методов в экологической статистике для анализа разведочных данных многомерных данных. Это так называемые техники рукоположения. Многие из них совпадают или тесно связаны с общими методами в других областях статистики. Возможно, прототипным примером будет анализ основных компонентов (PCA). Экологи могут использовать PCA и связанные с ними методы для изучения «градиентов» (мне не совсем понятно, что такое градиент, но я немного об этом читал).

На этой странице последний элемент в разделе Анализ основных компонентов (PCA) гласит:

  • PCA имеет серьезную проблему для данных о растительности: эффект подковы. Это связано с криволинейностью распределения видов по градиентам. Поскольку кривые реакции видов обычно являются унимодальными (то есть очень сильно криволинейными), эффект подковы является обычным явлением.

Далее в разделе « Анализ соответствия» или «Взаимное усреднение» (RA) , это относится к «эффекту арки»:

  • У РА есть проблема: арочный эффект. Это также обусловлено нелинейностью распределений по градиентам.
  • Арка не так серьезна, как эффект подковы PCA, потому что концы градиента не запутаны.

Может кто-нибудь объяснить это? Недавно я видел это явление на графиках, которые повторно представляют данные в пространстве меньшего измерения (а именно, анализ соответствия и факторный анализ).

  1. Что будет соответствовать «градиенту» в более общем плане (т. Е. В неэкологическом контексте)?
  2. Если это происходит с вашими данными, это «проблема» («серьезная проблема»)? За что?
  3. Как следует интерпретировать вывод, где появляется подкова / арка?
  4. Нужно ли применять лекарство? Какая? Помогут ли преобразования исходных данных? Что если данные являются порядковыми рейтингами?

Ответы могут существовать на других страницах этого сайта (например, для PCA , CA и DCA ). Я пытался работать через них. Но обсуждения заключены в достаточно незнакомой экологической терминологии и примерах, чтобы понять проблему сложнее.

Gung - Восстановить Монику
источник
1
(+1) Я нашел достаточно четкий ответ на сайте ordination.okstate.edu/PCA.htm . Объяснение «криволинейности» в вашей цитате совершенно неверно - вот что делает его таким запутанным.
whuber
2
Смотрите также Diaconis, et al. (2008), Подковы в многомерном масштабировании и методы локального ядра , Ann. Appl. Стат. том 2, нет. 3, 777-807.
кардинал
Я пытался ответить на ваши вопросы, но я не уверен, насколько хорошо я достиг того, что я, как эколог, и градиент, как я думаю об этих вещах.
Восстановить Монику - Дж. Симпсон
@whuber: цитируемое объяснение "криволинейности" может быть запутанным и не очень ясным, но я не думаю, что оно "совершенно неправильно". Если бы численность вида как функция положения вдоль истинного «градиента» (используя пример из вашей ссылки) была линейной (возможно, искаженной некоторым шумом), то облако точек было бы (приблизительно) одномерным и PCA нашел бы это. Облако точек становится изогнутым / изогнутым, потому что функции не являются линейными. Особый случай смещенных гауссиан приводит к подкове.
говорит амеба: восстанови Монику
@Amoeba Тем не менее, эффект подковы не является результатом криволинейности из видов градиентов: она возникает из нелинейность в распределении коэффициентов . Цитата, приписывая эффект формам самих градиентов, неправильно определяет причину явления.
whuber

Ответы:

19

Q1

Экологи все время говорят о градиентах. Существует множество видов градиентов, но лучше всего рассматривать их как некоторую комбинацию любых переменных, которые вы хотите или которые важны для ответа. Таким образом, градиентом может быть время, пространство, кислотность почвы, питательные вещества или что-то более сложное, например, линейная комбинация ряда переменных, необходимых для реакции в некотором роде.

Мы говорим о градиентах, потому что мы наблюдаем виды в пространстве или времени, и целый ряд вещей меняется в зависимости от этого пространства или времени.

Q2

Я пришел к выводу, что во многих случаях подкова в PCA не является серьезной проблемой, если вы понимаете, как она возникает, и не делаете глупостей, например, возьмите PC1, когда «градиент» фактически представлен PC1 и PC2 (ну, это также разделен на более высокие ПК, но, надеюсь, 2-е представление в порядке).

В CA я думаю, что думаю то же самое (теперь я был вынужден немного подумать об этом). Решение может сформировать арку, когда в данных отсутствует сильное 2-е измерение, так что свернутая версия первой оси, которая удовлетворяет требованию ортогональности осей CA, объясняет большую «инерцию», чем другое направление в данных. Это может быть более серьезным, так как это составная структура, где с помощью PCA арка является просто способом представления численности видов на участках вдоль одного доминирующего градиента.

Я никогда не понимал, почему люди так сильно волнуются из-за неправильного заказа на PC1 с сильной подковой. Я бы сказал, что в таких случаях вы не должны брать только ПК1, и тогда проблема исчезнет; пары координат на ПК1 и ПК2 избавляют от инверсий на любой из этих двух осей.

Q3

Если бы я увидел подкову в биплоте PCA, я бы интерпретировал данные как имеющие один доминирующий градиент или направление изменения.

Если бы я увидел арку, я бы, вероятно, сделал бы то же самое, но я бы очень осторожно попытался объяснить CA ось 2 вообще.

Я бы не стал применять DCA - он просто искривляет арку (в лучших обстоятельствах) так, что вы не видите странностей на двухмерных графиках, но во многих случаях он создает другие паразитные структуры, такие как ромбы или трубы в форме размещение образцов в пространстве DCA. Например:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

введите описание изображения здесь

Мы видим типичное разветвление точек выборки слева от графика.

Q4

м

Это предполагает поиск нелинейного направления в многомерном пространстве данных. Одним из таких методов является главная кривая Hastie & Stuezel, но доступны и другие методы нелинейного многообразия, которых может быть достаточно.

Например, для некоторых патологических данных

введите описание изображения здесь

Мы видим сильную подкову. Главная кривая пытается восстановить этот лежащий в основе градиент или расположение / упорядочение образцов с помощью гладкой кривой в m измерениях данных. На рисунке ниже показано, как итерационный алгоритм сходится к чему-то, приближающемуся к основному градиенту. (Я думаю, что он отклоняется от данных в верхней части графика, чтобы быть ближе к данным в более высоких измерениях, и частично из-за критерия самосогласованности для кривой, которая будет объявлена ​​главной кривой.)

введите описание изображения здесь

У меня есть больше деталей, включая код в моем блоге, из которого я взял эти изображения. Но главное здесь - это то, что главные кривые легко восстанавливают известное упорядочение образцов, тогда как ПК1 или ПК2 сами по себе этого не делают.

В случае PCA, обычно применяются преобразования в экологии. Популярные преобразования - это те, о которых можно думать, что они возвращают некоторое неевклидово расстояние, когда евклидово расстояние вычисляется на основе преобразованных данных. Например, расстояние Хеллингера

DЧАСеLLяNграммер(Икс1,Икс2)знак равноΣJзнак равно1п[Y1JY1+-Y2JY2+]2

YяJJяYя+я

Подкова давно известна и изучена в области экологии; часть ранней литературы (плюс более современный вид)

Основные ссылки на основные кривые

С первой была очень экологическая презентация.

Восстановить Монику - Дж. Симпсон
источник
Спасибо, Гэвин. Рассмотрим порядковые рейтинги 1: 5 из набора данных с такими вопросами, как: «Мне нравится мой доктор» и «Я чувствую, что мой доктор заботится обо мне как о человеке». Они не имеют значительного распределения ни в пространстве, ни во времени. Какой здесь будет «градиент»?
gung - Восстановить Монику
С таблицей 5x5 и высоким N, один из способов визуализации данных - с CA. Данные являются порядковыми, но CA не распознает это; поэтому мы можем проверить, не ближе ли соседние строки / столбцы, чем те, которые расположены дальше друг от друга. Оба набора точек располагаются вдоль четкой линии в соответствующем порядке, но линии изгибаются так, что крайние значения находятся ближе друг к другу, чем средняя точка в 2D-пространстве. Как это должно быть истолковано?
gung - Восстановить Монику
CA находит порядок как для строк (выборок), так и для переменных (столбцов), который максимизирует дисперсию «оценок» выборки. Он находит скрытую переменную (линейную комбинацию переменных), которая максимизирует эту дисперсию. Мы называем эту скрытую переменную градиентом.
Восстановить Монику - Дж. Симпсон
Что касается сжатия, вы имеете в виду ближе друг к другу на оси CA 1 или ближе друг к другу с точки зрения евклидова расстояния в масштабе биплота? В любом случае, это действительно проблема проецирования данных в низкоразмерное пространство. DCA пытается отменить этот эффект, раздвигая выборки в конце оси 1 DCA с детрендами и сжимая выборки около начала координат. Так что да, это проблема, но это связано с негибкостью метода для надлежащего захвата основного градиента. Мы можем жить с этим или использовать более гибкий подход (по крайней мере, в экологии).
Восстановить Монику - Дж. Симпсон
1
Если вы посмотрите на это в большем количестве измерений, проблема исчезнет. Я думаю, что это всего лишь предел метода; во многих случаях это нормально, но в других это не удается.
Восстановить Монику - Дж. Симпсон