Мой учебник перечисляет idf как где
- : количество документов
- : количество документов, содержащих термин t
Википедия перечисляет эту формулу в виде сглаженной версии фактического . Это один Я понимаю: она колеблется отлог(Ндо∞,что кажется интуитивным.
Нолог(1+N
переходит отlog(1+1)к∞,что кажется странным ...
Я немного знаю о сглаживании из языкового моделирования, но там вы бы добавили что-то в числитель, а также в знаменатель, потому что вы беспокоитесь о вероятности массы. Но просто добавить1не имеет смысла для меня. Что мы пытаемся достичь здесь?
text-mining
natural-language
smoothing
user2740
источник
источник
Ответы:
источник