Существует много методов в экологической статистике для анализа разведочных данных многомерных данных. Это так называемые техники рукоположения. Многие из них совпадают или тесно связаны с общими методами в других областях статистики. Возможно, прототипным примером будет анализ основных компонентов (PCA). Экологи могут использовать PCA и связанные с ними методы для изучения «градиентов» (мне не совсем понятно, что такое градиент, но я немного об этом читал).
На этой странице последний элемент в разделе Анализ основных компонентов (PCA) гласит:
- PCA имеет серьезную проблему для данных о растительности: эффект подковы. Это связано с криволинейностью распределения видов по градиентам. Поскольку кривые реакции видов обычно являются унимодальными (то есть очень сильно криволинейными), эффект подковы является обычным явлением.
Далее в разделе « Анализ соответствия» или «Взаимное усреднение» (RA) , это относится к «эффекту арки»:
- У РА есть проблема: арочный эффект. Это также обусловлено нелинейностью распределений по градиентам.
- Арка не так серьезна, как эффект подковы PCA, потому что концы градиента не запутаны.
Может кто-нибудь объяснить это? Недавно я видел это явление на графиках, которые повторно представляют данные в пространстве меньшего измерения (а именно, анализ соответствия и факторный анализ).
- Что будет соответствовать «градиенту» в более общем плане (т. Е. В неэкологическом контексте)?
- Если это происходит с вашими данными, это «проблема» («серьезная проблема»)? За что?
- Как следует интерпретировать вывод, где появляется подкова / арка?
- Нужно ли применять лекарство? Какая? Помогут ли преобразования исходных данных? Что если данные являются порядковыми рейтингами?
Ответы могут существовать на других страницах этого сайта (например, для PCA , CA и DCA ). Я пытался работать через них. Но обсуждения заключены в достаточно незнакомой экологической терминологии и примерах, чтобы понять проблему сложнее.
источник
Ответы:
Q1
Экологи все время говорят о градиентах. Существует множество видов градиентов, но лучше всего рассматривать их как некоторую комбинацию любых переменных, которые вы хотите или которые важны для ответа. Таким образом, градиентом может быть время, пространство, кислотность почвы, питательные вещества или что-то более сложное, например, линейная комбинация ряда переменных, необходимых для реакции в некотором роде.
Мы говорим о градиентах, потому что мы наблюдаем виды в пространстве или времени, и целый ряд вещей меняется в зависимости от этого пространства или времени.
Q2
Я пришел к выводу, что во многих случаях подкова в PCA не является серьезной проблемой, если вы понимаете, как она возникает, и не делаете глупостей, например, возьмите PC1, когда «градиент» фактически представлен PC1 и PC2 (ну, это также разделен на более высокие ПК, но, надеюсь, 2-е представление в порядке).
В CA я думаю, что думаю то же самое (теперь я был вынужден немного подумать об этом). Решение может сформировать арку, когда в данных отсутствует сильное 2-е измерение, так что свернутая версия первой оси, которая удовлетворяет требованию ортогональности осей CA, объясняет большую «инерцию», чем другое направление в данных. Это может быть более серьезным, так как это составная структура, где с помощью PCA арка является просто способом представления численности видов на участках вдоль одного доминирующего градиента.
Я никогда не понимал, почему люди так сильно волнуются из-за неправильного заказа на PC1 с сильной подковой. Я бы сказал, что в таких случаях вы не должны брать только ПК1, и тогда проблема исчезнет; пары координат на ПК1 и ПК2 избавляют от инверсий на любой из этих двух осей.
Q3
Если бы я увидел подкову в биплоте PCA, я бы интерпретировал данные как имеющие один доминирующий градиент или направление изменения.
Если бы я увидел арку, я бы, вероятно, сделал бы то же самое, но я бы очень осторожно попытался объяснить CA ось 2 вообще.
Я бы не стал применять DCA - он просто искривляет арку (в лучших обстоятельствах) так, что вы не видите странностей на двухмерных графиках, но во многих случаях он создает другие паразитные структуры, такие как ромбы или трубы в форме размещение образцов в пространстве DCA. Например:
Мы видим типичное разветвление точек выборки слева от графика.
Q4
Это предполагает поиск нелинейного направления в многомерном пространстве данных. Одним из таких методов является главная кривая Hastie & Stuezel, но доступны и другие методы нелинейного многообразия, которых может быть достаточно.
Например, для некоторых патологических данных
Мы видим сильную подкову. Главная кривая пытается восстановить этот лежащий в основе градиент или расположение / упорядочение образцов с помощью гладкой кривой в m измерениях данных. На рисунке ниже показано, как итерационный алгоритм сходится к чему-то, приближающемуся к основному градиенту. (Я думаю, что он отклоняется от данных в верхней части графика, чтобы быть ближе к данным в более высоких измерениях, и частично из-за критерия самосогласованности для кривой, которая будет объявлена главной кривой.)
У меня есть больше деталей, включая код в моем блоге, из которого я взял эти изображения. Но главное здесь - это то, что главные кривые легко восстанавливают известное упорядочение образцов, тогда как ПК1 или ПК2 сами по себе этого не делают.
В случае PCA, обычно применяются преобразования в экологии. Популярные преобразования - это те, о которых можно думать, что они возвращают некоторое неевклидово расстояние, когда евклидово расстояние вычисляется на основе преобразованных данных. Например, расстояние Хеллингера
Подкова давно известна и изучена в области экологии; часть ранней литературы (плюс более современный вид)
Основные ссылки на основные кривые
С первой была очень экологическая презентация.
источник