Какой смысл разложения по сингулярным числам?

9

Я не понимаю, почему сокращение размеров важно. Какая польза от сбора некоторых данных и уменьшения их размера?

Whuber
источник
3
Тон вопроса не вызывает конструктивных ответов. Пожалуйста, подумайте о переписывании вашего вопроса.
Саша
2
Смысл может заключаться в том, чтобы уменьшить объем данных, необходимых для хранения определенной информации, за счет небольшой потери точности (например, сжатие изображений JPEG).
Саша
2
Спасибо за ваши комментарии, @Sasha. Это разумный вопрос, поэтому я внес небольшую правку, чтобы избежать впечатления резкости (безусловно, непреднамеренного), выраженного в оригинальной формулировке.
whuber
См. Stats.stackexchange.com/questions/177102/… например!
kjetil b halvorsen
Вы делаете SVD для тематического моделирования, которое НЕ является вероятностным. Для тематического моделирования это вероятностное использование LDA. Если вы НЕ занимаетесь тематическим моделированием, используйте PCA.
Брэд

Ответы:

18

Разложение по сингулярным значениям (SVD) - это не то же самое, что уменьшение размерности данных. Это метод разложения матрицы на другие матрицы, обладающий множеством замечательных свойств, которые я не буду здесь рассматривать. Подробнее о SVD см. На странице Википедии .

Уменьшение размерности ваших данных иногда очень полезно. Возможно, у вас гораздо больше переменных, чем наблюдений; это не редкость в геномной работе. Может случиться так, что у нас есть несколько переменных, которые очень сильно коррелированы, например, когда на них сильно влияет небольшое количество основных факторов, и мы хотим восстановить некоторое приближение к основным факторам. Методы уменьшения размерности, такие как анализ главных компонентов, многомерное масштабирование и канонический анализ вариаций, дают нам понимание взаимосвязей между наблюдениями и / или переменными, которые мы не можем получить каким-либо другим способом.

Конкретный пример: несколько лет назад я анализировал опрос удовлетворенности сотрудников, в котором было более 100 вопросов. Ну, ни один менеджер никогда не сможет взглянуть на более чем 100 вопросов на сумму ответов, даже обобщенных, и сделать больше, чем просто догадаться, что все это значит, потому что кто может сказать, как связаны ответы и что движет ими, на самом деле ? Я выполнил факторный анализ данных, для которого у меня было более 10 000 наблюдений, и предложил пять очень четких и легко интерпретируемых факторов, которые можно использовать для разработки специфических для менеджера баллов (по одному на каждый фактор), которые суммируют всю совокупность более 100 вопросов. Гораздо лучшее решение, чем дамп электронных таблиц Excel, который раньше использовался при составлении отчетов о результатах!

jbowman
источник
Метод, называемый «тонкий SVD», используется для уменьшения размерности. Смотрите Википедию на SVD.
Киборг
5

Что касается вашего второго пункта вопроса, преимущества уменьшения размерности для набора данных могут быть:

  • уменьшить необходимое место для хранения
  • ускорение вычислений (например, в алгоритмах машинного обучения), меньше измерений означает меньше вычислений, также меньшее количество измерений может позволить использовать алгоритмы, непригодные для большого числа измерений
  • убрать лишние объекты, например, нет смысла хранить размер ландшафта как в квадратных метрах, так и в квадратных милях (возможно, сбор данных был некорректным)
  • сокращение размера данных до 2D или 3D может позволить нам построить и визуализировать его, возможно, наблюдать за паттернами, дать нам понимание

Помимо этого, помимо PCA, SVD имеет множество приложений в области обработки сигналов, NLP и многих других

clyfe
источник
2

Посмотрите на этот мой ответ . Разложение по сингулярным значениям является ключевым компонентом анализа основных компонентов , который является очень полезным и очень мощным методом анализа данных.

Он часто используется в алгоритмах распознавания лиц, и я часто использую его в своей повседневной работе в качестве аналитика хедж-фонда.

Крис Тейлор
источник
1
Разве SVD и PCA (хотя и связаны) не являются разными процедурами?
B_Miner
2
Вы правы. SVD - это метод для получения решения проблемы PCA.
Bayerj
1
@B_Miner Да - вот почему я сказал, что SVD является ключевым компонентом PCA. Я сосредоточился на pca, потому что вопрос касается уменьшения размеров (для которых подходит pca, а для svd нет)
Крис Тейлор
Возможно, слово «выбор компонента» было тем, что временно отбросило @B_Miner. :)
кардинал