Предположим, у меня есть мерный набор данных, где измерений примерно ортогональны (имеют нулевую корреляцию).N
Есть ли какая-либо полезность с точки зрения:
- Визуализация
- Представление (для эффективности классификатора)
- Или другие критерии
выполнить уменьшение размерности данных?
pca
dimensionality-reduction
user1172468
источник
источник
Ответы:
Я хотел уточнить комментарий, который оставил под ответом @ Peter-Flom, но, вероятно, его стоит написать в ответе. В какой степени вы можете уменьшить размеры, используя PCA для почти ортогональных данных? Ответ «это зависит» от того, выполняете ли вы PCA по корреляционной или ковариационной матрице .
Если вы используете PCA в корреляционной матрице, то, поскольку это будет незначительно отличаться от единичной матрицы, существует сферическая симметрия, которая делает все направления «одинаково информативными». Пересчет отклонений ваших переменных до одного перед PCA является математически эквивалентным подходом, который даст тот же результат. В то время как выходные данные PCA идентифицируют некоторые компоненты с немного меньшей дисперсией, чем другие, это можно отнести (если мы предположим нулевую корреляцию в популяции) только к случайному изменению в выборке, поэтому не будет хорошей причиной для исключения этих изменений. компоненты. Фактически, такое несоответствие между стандартными отклонениями компонентов должно уменьшаться по мере увеличения размера выборки. Мы можем подтвердить это в симуляции.
Выход:
Однако, если вы делаете PCA, используя ковариационную матрицу вместо корреляционной матрицы (эквивалентно: если мы не масштабируем стандартные отклонения до 1 до применения PCA), то ответ зависит от разброса ваших переменных. Если ваши переменные имеют одинаковую дисперсию, то у нас все еще остается сферическая симметрия, поэтому нет «привилегированного направления» и уменьшение размеров не может быть достигнуто.
Однако при наличии смеси переменных с высокой и низкой дисперсией симметрия больше похожа на эллипсоид с некоторыми широкими осями, а другие тонкими. В этой ситуации произойдет загрузка компонентов с высокой дисперсией на переменные с высокой дисперсией (где эллипсоид широкий) и загрузка компонентов с низкой дисперсией на переменные с низкой дисперсией (в каких направлениях эллипсоид узкий).
Если переменные имеют очень разные отклонения (опять-таки геометрически эллипсоид, но все оси различаются), то ортогональность позволяет первому ПК очень сильно загружаться в переменную с наибольшей дисперсией и так далее.
В последних двух случаях были компоненты с малой дисперсией, которые вы могли бы рассмотреть как отбрасывание, чтобы добиться уменьшения размеров, но это в точности эквивалентно выбрасыванию наименьших переменных дисперсии . По сути, ортогональность позволяет вам идентифицировать компоненты с низкой дисперсией с переменными с низкой дисперсией, поэтому, если вы намерены уменьшить размерность таким способом, не ясно, выиграет ли от этого использование PCA.
Примечание: продолжительность времени, затрачиваемого на обсуждение случая, когда переменные не масштабируются до единичной дисперсии - то есть с использованием ковариации, а не матрицы корреляции, - не должна рассматриваться как указание на то, что этот подход как-то более важен, и, конечно, не на том, что он это лучше". Симметрия ситуации просто более тонкая, поэтому требуется более длительное обсуждение.
источник
Вы можете попробовать более общий метод обучения нелинейного многообразия с уменьшением размерности, такой как локально линейное вложение, лапласианские собственные карты или t-SNE.
Вполне возможно, что в ваших данных будет подпространство (многообразие) меньшей размерности, которое оставляет нулевую корреляцию между N-базисными измерениями. Например, круг точек относительно источника или формы волны, как показано здесь . PCA не поднимет это, но другие методы будут.
Просмотр таких методов особенно интересен и распространен для визуализации и анализа данных. Для использования в классификаторе или другой модели вам нужно ограничиться методами, которые могут быть использованы при обучении и применены в тесте, что исключает множество этих методов. Если это ваш основной интерес, вы должны также изучить методы неконтролируемой предварительной подготовки и (контролируемого) проектирования функций.
источник
Если все N переменных примерно ортогональны, то уменьшение размера сделает относительно небольшое уменьшение. Например, в
R
По сути, «ортогональный» подразумевает «уже в его наименьшем размере».
источник
x1<-rnorm(100, sd=0.1)
иpcsol <- princomp(df1, cor=FALSE)
есть разница, особенно если мы посмотримsummary(pcsol)
. (Я не предполагаю, что cov - лучший подход, чем cor, просто это возможно.)