Традиционный подход к построению объектов для интеллектуального анализа текста - это подход «мешок слов», и его можно усовершенствовать с помощью tf-idf для настройки вектора объектов, характеризующего данный текстовый документ. В настоящее время я пытаюсь использовать модель языка биграмм или (N-грамм) для построения векторного элемента, но не совсем знаю, как это сделать? Можем ли мы просто следовать подходу «мешок слов», то есть вычислить счетчик частот в терминах биграмм вместо слов и улучшить его с помощью весовой схемы tf-idf?
10
Количество биграмм можно уменьшить, выбрав только те, которые имеют положительную взаимную информацию.
Мы сделали это для генерации мешка представления биграмм на треке INEX XML Mining, http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp .
Мы не пытались использовать взаимную информацию между терминами при взвешивании биграмм. См. Https://en.wikipedia.org/wiki/Pointwise_mutual_information , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf и http: //www.nltk. org / howto / collocations.html для лучшего объяснения точечной взаимной информации для биграмм.
См. Https://stackoverflow.com/questions/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python и /programming/22118350/python-sentiment-analysis использование точечной взаимной информации для других вопросов, связанных с этим.
источник
Использование случайных проекций для уменьшения размерности данных может оказаться полезным для уменьшения пространства, необходимого для хранения объектов, https://en.wikipedia.org/wiki/Random_projection . Он очень хорошо масштабируется, и каждый пример может быть спроецирован на более низкое размерное пространство независимо и без каких-либо прямых методов оптимизации, таких как PCA, SVD, Sammon Maps, NMF и т. Д.
источник