У меня есть матрица , где - количество генов, а - количество пациентов. Любой, кто работал с такими данными, знает, что всегда больше, чем . Используя выбор функции, я получил к более разумному числу, однако все еще больше, чем .p n p n p p n
Я хотел бы вычислить сходство пациентов на основе их генетических профилей; Я мог бы использовать евклидово расстояние, однако Махаланобис кажется более подходящим, поскольку он учитывает корреляцию между переменными. Проблема (как отмечено в этом посте ) заключается в том, что расстояние Махаланобиса, в частности ковариационная матрица, не работает, когда . Когда я пробегаю расстояние Махаланобиса в R, я получаю ошибку:
Error in solve.default(cov, ...) : system is computationally
singular: reciprocal condition number = 2.81408e-21
До сих пор, чтобы попытаться решить эту проблему, я использовал PCA и вместо генов я использую компоненты, и это, кажется, позволяет мне вычислять расстояние Махаланобиса; 5 компонентов представляют около 80% дисперсии, поэтому теперь .
Мои вопросы: могу ли я использовать PCA для значимого определения расстояния Махаланобиса между пациентами, или это неуместно? Существуют ли альтернативные метрики расстояния, которые работают, когда и существует также большая корреляция между переменными?n
PCA
может нарушить корреляции переменных, если вы не используете что-то вроде наклонного вращения. Я также не уверен, как распределение дисперсииPCA
повлияет на расстояние Махаланобиса между подобными пациентами.PCA
работают методы уменьшения переменных, например , мне любопытно, можно ли использовать какую-либо метрику расстояния на выходах.Ответы:
Если вы оставите все компоненты в PCA - тогда евклидовы расстояния между пациентами в новом PCA-пространстве будут равны их расстояниям Махаланобиса в наблюдаемо-переменном пространстве. Если вы пропустите некоторые компоненты, это немного изменится, но в любом случае. Здесь я имею в виду PCA-компоненты с единичной дисперсией, а не тот, чья дисперсия равна собственному значению (я не уверен в вашей реализации PCA).
Я просто имею в виду, что если вы хотите оценить расстояние Махаланобиса между пациентами, вы можете применить PCA и оценить евклидово расстояние. Оценка расстояния Махаланобиса после применения PCA кажется мне бессмысленной.
источник
Взгляните на следующую статью:
Зубер В., Сильва А.П.Д. и Стриммер К. (2012). Новый алгоритм одновременной селекции SNP в многомерных исследованиях по всему геному . BMC биоинформатика , 13 (1), 284.
Это точно решает вашу проблему. Авторы предполагают использование новых измерений важности переменной, кроме того, что ранее они вводили штрафной метод оценки для корреляционной матрицы объясняющих переменных, который подходит для вашей задачи. Они также используют расстояние Махаланобиса для декорреляции!
Методы включены в R-пакет «Уход», доступный на CRAN.
источник
Оценки PCA (или результаты PCA) используются в литературе для вычисления расстояния Махаланобиса между образцом и распределением образцов. Для примера, смотрите эту статью . В разделе «Методы анализа» авторы заявляют:
Я видел другие примеры дискриминантного анализа PCA / Mahalanobis в литературе и в меню справки программного обеспечения GRAMS IQ chemometrics. Эта комбинация имеет смысл, поскольку расстояние Махаланобиса не работает должным образом, когда число переменных превышает количество доступных выборок, а PCA уменьшает количество переменных.
Алгоритмы машинного обучения для одноклассной классификации (например, Isolation Forest, One-ClassSVM и т. Д.) Являются возможной альтернативой дискриминантному анализу PCA / Mahalanobis. В нашей лаборатории Isolation Forest в сочетании с предварительной обработкой данных дали хорошие результаты в классификации спектров ближнего инфракрасного спектра.
На слегка связанном примечании, обнаружение выброса или новизны с расстоянием PCA / Mahalanobis, для данных большого размера, часто требует вычисления предела расстояния Mahalanobis . В этой статье предполагается, что отсечка может быть рассчитана как квадратный корень критического значения распределения хи-квадрат , при условии, что данные распределены нормально. Это критическое значение требует количества степеней свободы и значения вероятности, связанного с данными. Похоже, что в статье предполагается, что количество оставшихся основных компонентов равно количеству степеней свободы, необходимых для расчета критического значения, поскольку авторы использовали количество признаков в наборе данных для своих расчетов.
источник