Зачем добавлять один в частоте обратного документа?

9

Мой учебник перечисляет idf как гдеlog(1+Nnt)

  • : количество документовN
  • : количество документов, содержащих термин tntt

Википедия перечисляет эту формулу в виде сглаженной версии фактического . Это один Я понимаю: она колеблется отлог(Нlog(Nnt)до∞,что кажется интуитивным. Нолог(1+Nlog(NN)=0
переходит отlog(1+1)к∞,что кажется странным ... Я немного знаю о сглаживании из языкового моделирования, но там вы бы добавили что-то в числитель, а также в знаменатель, потому что вы беспокоитесь о вероятности массы. Но просто добавить1не имеет смысла для меня. Что мы пытаемся достичь здесь?log(1+Nnt)log(1+1)
1

user2740
источник
связанные, но не дубликаты: stats.stackexchange.com/questions/152182/…
Sycorax сообщает, что восстановит Монику
Правильное сглаживание будет
log(N(1+nt))

Ответы:

7

+1

log(1+Nnt)log(2)log(Nnt)log(Nnt)

k+log(N/s)k,s0,1s1+nt=1N

Кен Бенуа
источник