В этой SE много постов, в которых обсуждаются надежные подходы к анализу главных компонентов (PCA), но я не могу найти ни одного хорошего объяснения того, почему PCA в первую очередь чувствителен к выбросам.
26
В этой SE много постов, в которых обсуждаются надежные подходы к анализу главных компонентов (PCA), но я не могу найти ни одного хорошего объяснения того, почему PCA в первую очередь чувствителен к выбросам.
Ответы:
Одна из причин заключается в том, что PCA можно рассматривать как разложение данных низкого ранга, которое сводит к минимуму суммуL2 норм остатков разложения. Т.е. , если Y представляет ваши данные ( m векторы n измерений), и X представляет собой РСА базис ( k векторы n измерений), то разложение будет строго свести к минимуму
∥Y−XA∥2F=∑j=1m∥Yj−XAj.∥2
Здесь A - матрица коэффициентов разложения PCA, а ∥⋅∥F - норма Фробениуса матрицы.
Поскольку PCA сводит к минимуму нормыL2 (т.е. квадратичные нормы), у него возникают те же проблемы, что и для метода наименьших квадратов, или для гауссовской модели, поскольку они чувствительны к выбросам. Из-за возведения в квадрат отклонений от выбросов они будут доминировать в общей норме и, следовательно, будут управлять компонентами PCA.
источник