Надежный PCA (разработанный Candes et al. 2009 или более поздней версии Netrepalli et al 2014 ) является популярным методом многомерного обнаружения выбросов , но расстояние Махаланобиса также можно использовать для обнаружения выбросов с помощью надежной регуляризованной оценки ковариационной матрицы . Мне любопытно (не) преимущества использования одного метода перед другим.
Моя интуиция подсказывает мне, что самое большое различие между ними заключается в следующем: когда набор данных «мал» (в статистическом смысле), надежный PCA даст ковариацию более низкого ранга, тогда как надежная оценка ковариационной матрицы вместо этого даст полную ранговая ковариация из-за регуляризации Ледуа-Вольфа. Как это в свою очередь влияет на обнаружение выбросов?
источник
Ответы:
В этой статье сравниваются некоторые методы в этой области. Они относятся к подходу Robust PCA, к которому вы привязаны, как «PCP» (преследование основных компонентов), и к семейству методов, с которыми вы связались, для надежной оценки ковариации в качестве M-оценок.
Они утверждают, что
и показать, что в некоторых случаях PCP (он же устойчивый PCA) может давать сбой для обнаружения выбросов.
Они также говорят о трех видах «врагов восстановления подпространства», то есть о различных видах выбросов, и о том, какие методы могут быть полезны для борьбы с каждым из них. Сравнение ваших собственных выбросов с тремя типами «врагов», обсуждаемых здесь, может помочь вам выбрать подход.
источник