Почему PCA чувствителен к выбросам?

26

В этой SE много постов, в которых обсуждаются надежные подходы к анализу главных компонентов (PCA), но я не могу найти ни одного хорошего объяснения того, почему PCA в первую очередь чувствителен к выбросам.

пси
источник
5
Потому что вклад нормы L2 очень высок для выбросов. Затем, при минимизации нормы L2 (что пытается сделать PCA), эти точки будут подтягиваться сложнее, чем точки ближе к средней воле.
mathreadler
Этот ответ говорит вам все, что вам нужно. Просто представьте себе выброс и внимательно прочитайте.
С. Коласса - Восстановить Монику

Ответы:

35

Одна из причин заключается в том, что PCA можно рассматривать как разложение данных низкого ранга, которое сводит к минимуму сумму L2 норм остатков разложения. Т.е. , если Y представляет ваши данные ( m векторы n измерений), и X представляет собой РСА базис ( k векторы n измерений), то разложение будет строго свести к минимуму

YXAF2=j=1mYjXAj.2
Здесь A - матрица коэффициентов разложения PCA, а F - норма Фробениуса матрицы.

Поскольку PCA сводит к минимуму нормы L2 (т.е. квадратичные нормы), у него возникают те же проблемы, что и для метода наименьших квадратов, или для гауссовской модели, поскольку они чувствительны к выбросам. Из-за возведения в квадрат отклонений от выбросов они будут доминировать в общей норме и, следовательно, будут управлять компонентами PCA.

sega_sai
источник