Если у вас есть матрица с n строками и m столбцами, вы можете использовать SVD или другие методы для вычисления аппроксимации низкого ранга данной матрицы.
Однако в приближении низкого ранга все равно будет n строк и m столбцов. Как могут быть использованы низкоранговые аппроксимации для машинного обучения и обработки естественного языка, если у вас осталось такое же количество функций?
r
matrix
approximation
Zach
источник
источник
Ответы:
Аппроксимация низкого ранга для может быть разложена на квадратный корень матрицы как где собственное разложение есть , тем самым уменьшая количество функций, которые могут быть представлены с помощью на основе ранга г приближении как . Обратите внимание, что индекс ХG=Uгλ 1Икс^ Икс XUЛUТОХ=ОСТгG = Uрλ12р Икс Uλ UT грамм Икс^= G GT р представляет количество собственных векторов и собственных значений, используемых в приближении. Следовательно, это уменьшает количество функций для представления данных. В некоторых примерах аппроксимации низкого ранга рассматриваются как расширения исходных данных на основе базисной или латентной переменной (словаря) при особых ограничениях, таких как ортогональность, неотрицательность (неотрицательная матричная факторизация) и т. Д.
источник
Точка аппроксимации низкого ранга не обязательно предназначена только для уменьшения размера.
Идея состоит в том, что, основываясь на знании предметной области, данные / записи матрицы каким-то образом сделают матрицу низким ранжированием. Но это в идеальном случае, когда записи не подвержены шуму, искажениям, отсутствующим значениям и т. Д. Наблюдаемая матрица обычно будет иметь гораздо более высокий рейтинг.
Таким образом, аппроксимация низкого ранга является способом восстановления «исходной» («идеальной» матрицы до того, как она была испорчена шумом и т. Д.), Т. Е. Найти наиболее согласованную матрицу (с точки зрения наблюдаемых записей) с текущей матрицей и имеет низкий ранг, так что его можно использовать как приближение к идеальной матрице. Восстановив эту матрицу, мы можем использовать ее вместо шумной версии и, надеюсь, получить лучшие результаты.
источник
Еще две причины, не упомянутые до сих пор:
Уменьшение колинеарности. Я полагаю, что большинство этих методов снимают коллинеарность, что может быть полезно для последующей обработки.
Наше воображение низшего ранга, поэтому оно может быть полезным для изучения низкосортных отношений.
источник
источник
Согласно «Современным многомерным статистическим методам (Изенман)» регрессия с пониженным рангом охватывает несколько интересных методов в качестве особых случаев, включая PCA, факторный анализ, канонический анализ вариаций и корреляции, LDA и анализ соответствия.
источник