Я использую скрипт. Это для основных записей. У меня есть датафрейм, который показывает различные элементные композиции в столбцах на заданной глубине (в первом столбце). Я хочу провести с ним PCA, и меня не устраивает метод стандартизации, который я должен выбрать.
Кто-нибудь из вас использовал clr()
данные для подготовки prcomp()
? Или это фальсифицирует мои решения. Я пытался использовать clr()
данные, прежде чем использовать prcomp()
функцию в дополнение к использованию масштаба атрибута в prcomp()
.
data_f_clr<- clr(data_f)
data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE)
https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html
шкала описывается для масштабирования данных, поэтому они имеют единичную дисперсию. Я считаю, что мои данные имеют совершенно другой масштаб, что я и хотел. Проблема в том, что я получаю другое решение, когда использую приведенный выше код или когда пропускаю clr()
(что дает более желаемый результат). Но я хочу знать, почему clr()
беспокойство в этом случае?
clr
делает ....Ответы:
Да, вы можете, и на самом деле вы должны, когда ваши данные составлены.
Здесь можно найти обзор в области микробиологии, который мотивирует использовать CLR-преобразование с последующим PCA для анализа наборов данных микробиомов (которые по определению являются композиционными): https://www.frontiersin.org/articles/10.3389/fmicb .2017.02224 / полный .
источник
У вас могут возникнуть проблемы с ванильным PCA по координатам CLR. Есть две основные проблемы с композиционными данными:
Теперь посмотрим, что
Другими словами, CLR снимает ограничение диапазона значений (что хорошо для некоторых приложений), но не снимает ограничение суммы, что приводит к сингулярной ковариационной матрице, которая эффективно нарушает (M) ANOVA / линейную регрессию / ... и делает PCA чувствителен к выбросам (потому что для надежной оценки ковариации требуется матрица полного ранга). Насколько я знаю, из всех композиционных преобразований только ILR решает обе проблемы без каких-либо серьезных базовых допущений. Однако ситуация немного сложнее. SVD координат CLR дает вам ортогональный базис в пространстве ILR (координаты ILR охватывают гиперплоскость в CLR), поэтому ваши оценки дисперсии не будут различаться между ILR и CLR (что, конечно, очевидно, поскольку и ILR, и CLR являются изометриями на симплекс). Однако существуют методы для надежной оценки ковариации по координатам ILR [2].
Обновить я
Просто чтобы проиллюстрировать, что CLR не подходит для методов корреляции и определения местоположения. Предположим, мы 100 раз отобрали сообщество из трех линейно независимых нормально распределенных компонентов. Для простоты, пусть все компоненты имеют равные ожидания (100) и отклонения (100):
Обновление II
Учитывая полученные ответы, я считаю необходимым указать, что ни в одном из своих ответов я не сказал, что PCA не работает с данными, преобразованными в CLR. Я заявлял, что CLR может тонко разрушать PCA , что, возможно, не важно для уменьшения размерности, но важно для анализа поисковых данных. Статья, цитируемая @Archie, посвящена микробной экологии. В этой области вычислительной биологии PCA или PCoA на различных матрицах расстояний используются для изучения источников изменения данных. Мой ответ следует рассматривать только в этом контексте. Более того, это подчеркивается в самой статье:
Gloor et al., 2017
Обновление III
Дополнительные ссылки на опубликованные исследования (я благодарю @Nick Cox за рекомендацию добавить больше ссылок):
источник