После обучения векторов слов с помощью word2vec, лучше ли их нормализовать, прежде чем использовать их для некоторых последующих приложений? Т.е. каковы плюсы / минусы их нормализации?
natural-language
word2vec
word-embeddings
Франк Дернонкур
источник
источник
Ответы:
Когда последующие приложения заботятся только о направлении векторов слов (например, они обращают внимание только на косинусное сходство двух слов), тогда нормализуются и забывают о длине.
Однако, если последующие приложения могут (или должны) учитывать более разумные аспекты, такие как значимость слова или последовательность в использовании слова (см. Ниже), то нормализация может быть не такой хорошей идеей.
Из Леви и др., 2015 (и, по сути, большая часть литературы по встраиванию слов):
Также от Уилсона и Шакеля, 2015 :
Нормализация эквивалентна потере понятия длины. То есть, как только вы нормализуете векторы слов, вы забываете длину (норму, модуль), которую они имели сразу после фазы обучения.
Однако иногда стоит учитывать исходную длину векторов слова.
Schakel and Wilson, 2015 наблюдали некоторые интересные факты, касающиеся длины векторов слов:
источник