Согласно документации removeSparseTerms
функции из tm
пакета, это то, что влечет за собой редкость:
A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse.
Итак, правильная ли интерпретация этого слова, если sparse
она равна 0,99, то мы удаляем термины, которые появляются не более чем в 1% данных?
r
text-mining
natural-language
zthomas.nc
источник
источник
Ответы:
Да , хотя ваше замешательство здесь понятно, так как термин «разреженность» трудно четко определить в этом контексте.
В смысле
sparse
аргумента кremoveSparseTerms()
, разреженность относится к порогу относительной частоты документа для термина, выше которого термин будет удален. Относительная частота документа здесь означает пропорцию. Как говорится на странице справки для команды (хотя и не очень ясно), разреженность уменьшается по мере приближения к 1.0. (Обратите внимание, что разреженность не может принимать значения 0 или 1.0, только значения между ними.)sparse = 0.99
sparse = 0.99
Вблизи другой крайности, если
sparse = .01
, тогда будут сохраняться только те термины, которые встречаются в (почти) каждом документе. (Конечно, это зависит от количества терминов и количества документов, и на естественном языке общие слова, такие как «the», могут встречаться в каждом документе и, следовательно, никогда не будут «разреженными».)Пример порога разреженности 0,99, где термин, встречающийся не более в (первом примере) менее 0,01 документа, и (во втором примере) чуть более 0,01 документа:
Вот несколько дополнительных примеров с реальным текстом и терминами:
В последнем примере с
sparse = 0.34
были сохранены только термины, встречающиеся в двух третях документов.Альтернативным подходом к обрезанию терминов из матриц терминов документа на основе частоты документа является пакет анализа текста quanteda . Та же функциональность здесь относится не к редкости, а непосредственно к частоте терминов в документе (как в tf-idf ).
Это использование кажется мне гораздо более простым.
источник