Надежный PCA против надежного расстояния Махаланобиса для обнаружения выбросов

Надежный PCA (разработанный Candes et al. 2009 или более поздней версии Netrepalli et al 2014 ) является популярным методом многомерного обнаружения выбросов , но расстояние Махаланобиса также можно использовать для обнаружения выбросов с помощью надежной регуляризованной оценки ковариационной матрицы . Мне любопытно (не) преимущества использования одного метода перед другим.

Моя интуиция подсказывает мне, что самое большое различие между ними заключается в следующем: когда набор данных «мал» (в статистическом смысле), надежный PCA даст ковариацию более низкого ранга, тогда как надежная оценка ковариационной матрицы вместо этого даст полную ранговая ковариация из-за регуляризации Ледуа-Вольфа. Как это в свою очередь влияет на обнаружение выбросов?

pca outliers covariance-matrix robust anomaly-detection Мустафа С Эйса
источник

Интересный вопрос, но я не могу понять, как ответ может быть мотивирован без конкретного варианта использования. Есть ли у вас "грубо искаженные наблюдения" ? Есть ли у вас вообще шумные данные? Ряд реализаций RPCA по существу представляют собой надежные методы оценки ковариации (см. Jolliffe's Princ. Component Analysis, Ed. 2nd Ch. 10), где ПК оцениваются по регуляризованной оценке ковариации. Таким образом, различия от двух упомянутых вами подходов далеко не однозначны. Как правило, автоматическое обнаружение выбросов является успешным в контексте конкретного приложения.

usεr11852 говорит восстановить Monic

Проблема «шумных данных» не является обнаружением выбросов. Я думаю, что проблема обнаружения выбросов сама по себе достаточно ограничительна, чтобы можно было провести общее сравнение между этими двумя методами без использования. Это вопрос о методологии.

Мустафа С Эйса

Может быть, я пытался сказать слишком много в слишком мало места, извините за это. На что я хочу обратить внимание, так это то, что два упомянутых вами подхода не различны. Вам следует больше сосредоточиться на сравнении между подходом к прогнозированию (то, что вы называете RPCA) и подходом надежной ковариантной оценки (то, что вы называете расстояниями Махаланобиса). Надежная ковариационная оценка сама по себе является совершенно допустимой методологией для реализации RPCA (например, google "PCA M-Esvaluation"). Не стоит также упоминать о наличии взвешенных подходов PCA, которые вы как-то не упоминаете в контексте RPCA.

usεr11852 говорит восстановить Monic

Не нужно извиняться :) Два метода очень сильно отличаются друг от друга, особенно для небольших наборов данных. Один из способов, которыми они отличаются, упоминается в конце моего вопроса. Хотя (надежный) PCA можно рассматривать как проблему проецирования, его также можно интерпретировать как проблему оценки ковариации, поэтому в методе оценки параметров, возможно, меньше различий, чем в приложении и производительности.

Мустафа С Эйса

@ MustafaSEisa / Хороший вопрос! Я думаю, что на это можно ответить методологически: на самом деле это один из моих писев. Я постараюсь сделать предварительный ответ как можно скорее. В это время; Я думаю, что плодотворный способ приблизиться к этому в более общих терминах, это посмотреть на последствия использования моделей с вложенной, но неравной группой инвариантности. Как я пытаюсь сделать здесь, в несколько ином контексте.

user603

В этой статье сравниваются некоторые методы в этой области. Они относятся к подходу Robust PCA, к которому вы привязаны, как «PCP» (преследование основных компонентов), и к семейству методов, с которыми вы связались, для надежной оценки ковариации в качестве M-оценок.

Они утверждают, что

PCP предназначен для равномерно искаженных координат данных вместо поврежденных точек данных (т. Е. Выбросов), поэтому сравнение с PCP несколько несправедливо для такого рода данных.

и показать, что в некоторых случаях PCP (он же устойчивый PCA) может давать сбой для обнаружения выбросов.

Они также говорят о трех видах «врагов восстановления подпространства», то есть о различных видах выбросов, и о том, какие методы могут быть полезны для борьбы с каждым из них. Сравнение ваших собственных выбросов с тремя типами «врагов», обсуждаемых здесь, может помочь вам выбрать подход.

Дэвид Дж. Харрис
источник

Спасибо за это, Дэвид, я посмотрю на газету. Тем не менее, существует версия надежного PCA, которая накладывает вращательно-инвариантное наказание на элемент (строки матрицы данных) вместо штрафа на координаты (например, в случае Candes). Мысли?

Мустафа С Эйса

Я не уверен, что понимаю ваш вопрос. Вы просите меня сравнить два подхода, которые вы обсуждали в своем вопросе, с другим надежным подходом PCA?

Дэвид Дж. Харрис

ℓ_{1}

$\ell_1$

ℓ_{1}

$\ell_1$

Если ваш ответ «Нет», это совершенно нормально, мне просто интересно.

Мустафа С Эйса

А ну понятно. Будет ли это особый случай расстояния Махаланобиса?

Дэвид Дж. Харрис,

Надежный PCA против надежного расстояния Махаланобиса для обнаружения выбросов

Ответы: