Как измерить дисперсию в данных частоты слов?

Как я могу определить количество дисперсии в векторе количества слов? Я ищу статистику, которая будет высокой для документа A, потому что она содержит много разных слов, которые встречаются редко, и низкой для документа B, потому что она содержит одно слово (или несколько слов), которые встречаются...