Я читал:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Но я не могу понять, почему именно формула была построена такой, какая она есть.
Что я делаю Понять:
iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как термин появляется чаще.
С этой точки зрения
Кроме того, термин частота может быть справедливо описан как
Итак, мера
в некоторой степени пропорционален тому, как часто термин встречается в данном документе, и насколько уникальным этот термин является над набором документов.
Что я не понимаю
Но данная формула описывает это как
Я хочу понять необходимость логарифмов, описанных в определении. Мол, почему они там? Какой аспект они подчеркивают?
\log
, я постоянно их забываю); +1 к обоим. Я видел газету Робертсона и собирался добавить ее; это действительно хорошее чтение, я добавлю его в основной текст.number of occurrences for all strings in document D
. Почему мы хотим, чтобы количество наиболее распространенных слов, а не всех слов?