Я попытался загрузить предварительно обученную модель fastText отсюда модель Fasttext . Я использую wiki.simple.en
from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True)
Но он показывает следующие ошибки
Traceback (most recent call last):
File "nltk_check.py", line 28, in <module>
word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True)
File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format
header = utils.to_unicode(fin.readline(), encoding=encoding)
File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode
return unicode(text, encoding, errors=errors)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte
Вопрос 1 Как загрузить модель быстрого текста с Gensim?
Вопрос 2 Также, после загрузки модели, я хочу найти сходство между двумя словами
model.find_similarity('teacher', 'teaches')
# Something like this
Output : 0.99
Как мне это сделать?
DeprecationWarning: Call to deprecated `load_fasttext_format` (use load_facebook_vectors
. Поэтому я используюfrom gensim.models.fasttext import load_facebook_model
Для использования .bin :
load_fasttext_format()
(обычно содержит полную модель с параметрами, ngrams и т. Д.).Для использования .vec :
load_word2vec_format
(содержит ТОЛЬКО векторы слов -> нет нграмм + вы не можете обновить модель).Примечание :: Если у вас возникли проблемы с памятью или вы не можете загрузить модели .bin, проверьте модель pyfasttext на то же самое.
Кредиты: Иван Меньших (сопровождающий Генсим)
источник
Бинарный формат FastText (который выглядит так, как будто вы пытаетесь загрузить) не совместим с форматом Gensim
word2vec
; первый содержит дополнительную информацию о единицах подслов, которыеword2vec
не используются.На странице FastText Github есть некоторое обсуждение проблемы (и обходной путь). Короче говоря, вам нужно будет загрузить текстовый формат (доступен по адресу https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md ).
Загрузив текстовый формат, вы можете использовать Gensim для его сохранения в двоичном формате, что значительно уменьшит размер модели и ускорит будущую загрузку.
https://github.com/facebookresearch/fastText/issues/171#issuecomment-294295302
источник