Вы слышали о приближении и проекции равномерного коллектора (UMAP) ?
UMAP (аппроксимация и проекция равномерного многообразия) - это новая методика обучения многообразия для нелинейного уменьшения размерности. UMAP построен на теоретической основе, основанной на римановой геометрии и алгебраической топологии. Результатом является практичный масштабируемый алгоритм, который применяется к данным реального мира. Алгоритм UMAP конкурирует с t-SNE за качество визуализации и, возможно, сохраняет большую часть глобальной структуры с превосходной производительностью во время выполнения. Кроме того, UMAP, как описано, не имеет вычислительных ограничений на размерность вложения, что делает его жизнеспособным в качестве универсального метода уменьшения размерности для машинного обучения.
Проверьте их код и оригинальную бумагу для списка плюсов и минусов, это очень просто в использовании.
Краткие факты: UMAP может обрабатывать большие наборы данных и работает быстрее, чем t-SNE, а также поддерживает подгонку к разреженным матричным данным, и, в отличие от t-SNE, общего метода уменьшения размеров, что означает, что его можно использовать не только для визуализации, но и для уменьшения функционального пространства для ввода в другие модели машинного обучения.
Конкретные примеры: я провел сравнительный анализ метода и сравнил его с некоторыми другими тетрадями-бенчмарками с методами уменьшения размерности , если заинтересован в быстром взгляде и начале работы.
На тот случай, если люди, перебравшие этот пост, обнаружат, что UMAP недостаточно эффективен, вот некоторые другие методы, с которыми я столкнулся, которые еще более эффективны (но не настолько высокого качества):
sklearn.random_projection
sklearn.feature_extraction.FeatureHasher
источник