Должен ли я нормализовать векторы слов word2vec перед их использованием?

38

После обучения векторов слов с помощью word2vec, лучше ли их нормализовать, прежде чем использовать их для некоторых последующих приложений? Т.е. каковы плюсы / минусы их нормализации?

Франк Дернонкур
источник
в задаче схожести нормализация немного повысила производительность моей системы.
керамат
Связанный: stackoverflow.com/q/36034454/1709587
Марк Эмери

Ответы:

30

Когда последующие приложения заботятся только о направлении векторов слов (например, они обращают внимание только на косинусное сходство двух слов), тогда нормализуются и забывают о длине.

Однако, если последующие приложения могут (или должны) учитывать более разумные аспекты, такие как значимость слова или последовательность в использовании слова (см. Ниже), то нормализация может быть не такой хорошей идеей.


Из Леви и др., 2015 (и, по сути, большая часть литературы по встраиванию слов):

Векторы нормализуются к длине единицы, прежде чем они используются для вычисления подобия, что делает косинусное сходство и эквивалент точечного произведения.

Также от Уилсона и Шакеля, 2015 :

Большинство применений вложения слов исследуют не сами векторы слов, а отношения между ними, например, для решения задач подобия и отношения слов. Для этих задач было обнаружено, что использование нормализованных векторов слов повышает производительность. Поэтому длина вектора слова обычно игнорируется.

Нормализация эквивалентна потере понятия длины. То есть, как только вы нормализуете векторы слов, вы забываете длину (норму, модуль), которую они имели сразу после фазы обучения.

Однако иногда стоит учитывать исходную длину векторов слова.

Schakel and Wilson, 2015 наблюдали некоторые интересные факты, касающиеся длины векторов слов:

Слово, которое последовательно используется в аналогичном контексте, будет представлено более длинным вектором, чем слово той же частоты, которое используется в разных контекстах.

Важную информацию несет не только направление, но и длина векторов слов.

Длина вектора слова обеспечивает, в сочетании с частотой термина, полезную меру значимости слова.

TURDUS-Мерула
источник
Можем ли мы уточнить, что «было обнаружено, что использование нормализованных векторов слов повышает производительность»? Разве нормализация не требует дополнительных вычислений?
разрастание
4
@ neurite, в этом контексте лучшая производительность означает лучший результат в оценочных задачах.
turdus-merula