Привет, это мой первый вопрос в стеке Data Science. Я хочу создать алгоритм классификации текста. Предположим, у меня есть большой набор текста и статей. Скажем, около 5000 простых текстов. Сначала я использую простую функцию, чтобы определить частоту всех четырех и выше символов слова. Затем я использую это как особенность каждого учебного образца. Теперь я хочу, чтобы мой алгоритм мог кластеризовать обучающие наборы в соответствии с их особенностями, которые здесь являются частотой каждого слова в статье. (Обратите внимание, что в этом примере каждая статья будет иметь свою уникальную особенность, так как каждая статья имеет свою особенность, например, статья имеет 10 «вода и 23« чистая », а другая имеет 8« политика »и 14« рычаги »). Можете ли вы предложить лучший алгоритм кластеризации для этого примера?
источник