Недоумение и кросс-энтропия для моделей с n-граммами

10

Попытка понять связь между перекрестной энтропией и недоумением. В общем случае для модели M , Недоумение (М) = 2 ^ энтропии (M) . Действуют ли эти отношения для всех разных n-грамм, то есть униграмм, биграмм и т. Д.

Margalit
источник
Это на самом деле определение недоумения; , что является производным от него;)Πязнак равно1N1п(веся|вес1,,,,веся-1)N
WavesWashSands

Ответы:

9

Да, недоумение всегда равно двум силам энтропии. Неважно, какая у вас модель, n-грамм, униграмма или нейронная сеть.

Есть несколько причин, по которым людям, моделирующим язык, нравится недоумение, а не просто энтропия. Одна из них заключается в том, что из-за показателя степени улучшения в недоумении «чувствуются», как будто они более существенны, чем эквивалентное улучшение энтропии. Другое состоит в том, что до того, как они начали использовать недоумение, сложность языковой модели сообщалась с использованием упрощенного измерения коэффициента ветвления, которое больше похоже на недоумение, чем на энтропию.

Аарон
источник
1

Согласился с ответом @Aaron с небольшой модификацией:

Это не всегда равно двум силам энтропии. На самом деле, это будет (база для журнала) в силу энтропии. Если бы вы использовали e в качестве своей базы, то это была бы энтропия.

Прашант Гупта
источник