Есть ли какие-либо статьи или дискуссии по поводу извлечения части текста, которая содержит большую часть информации о текущем документе.
Например, у меня большой корпус документов из того же домена. Есть части текста, которые содержат ключевую информацию, о которой говорит отдельный документ. Я хочу извлечь некоторые из этих частей и использовать их как краткое изложение текста. Есть ли полезная документация о том, как добиться чего-то подобного.
Было бы очень полезно, если бы кто-то мог указать мне правильное направление на то, что я должен искать или читать, чтобы получить представление о работе, которая, возможно, уже была проделана в этой области обработки естественного языка.
источник
Многие методы извлечения ключевых слов зависят от таких факторов, как:
Но в целом, если у вас длинный текст и вы хотите автоматически извлекать из него ключевые слова, я бы порекомендовал вам просмотреть следующие статьи:
TextRank
RAKE [Быстрое автоматическое извлечение ключевых слов]
лекарственное средство для местного применения
Также, чтобы извлечь пользовательские (специальные) ключевые слова, которые не проходят через описанные выше методы, взгляните на пост ниже:
Извлечение пользовательских ключевых слов с помощью NLTK POS tagger в Python
источник