Понимание использования логарифмов в логарифме TF-IDF

Я читал:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Но я не могу понять, почему именно формула была построена такой, какая она есть.

Что я делаю Понять:

iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как термин появляется чаще.

С этой точки зрения

я D F (S) знак равно \frac{# документов}{# документов, содержащих S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

Кроме того, термин частота может быть справедливо описан как

T е (S, D) знак равно \frac{# Происшествий S в документе D}{# максимальное количество вхождений для любой строки Q в документе D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

Итак, мера

я D F (S) \times T е (S, D)

$iDF(S) \times tf(S,D)$

в некоторой степени пропорционален тому, как часто термин встречается в данном документе, и насколько уникальным этот термин является над набором документов.

Что я не понимаю

Но данная формула описывает это как

(журнал (я D F (S))) (\frac{1}{2} + журнал (\frac{1}{2} T е (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

Я хочу понять необходимость логарифмов, описанных в определении. Мол, почему они там? Какой аспект они подчеркивают?

machine-learning clustering mathematical-statistics text-mining natural-language frogeyedpeas
источник

Ответы:

$P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

Как показывает ссылка на статью в Википедии, обоснование TF-IDF до сих пор не установлено; это эвристика, которую мы хотим сделать строгой, а не строгая концепция, которую мы хотим перенести в реальный мир. Как упомянул @ Anony-Mousse, в качестве очень хорошего прочтения по этому вопросу приводится Робертсон: « Понимание частоты обратных документов: теоретические аргументы в пользу IDF» . Он дает широкий обзор всей структуры и пытается основать методологию TF-IDF на значимости релевантности поисковых терминов.

usεr11852
источник

Некоторое обоснование TF-IDF можно найти в «Формальном исследовании эвристики поиска информации», 2004, Fang, Hui et al. ( Pdf ).

Алексей Григорьев

Я думаю, что это лучший справочник для обоснований TF-IDF: Робертсон, С. (2004). «Понимание частоты обратных документов: теоретические аргументы в пользу ИДФ». Журнал документации 60 (5): 503–520.

Выйти - Anony-Mousse

Спасибо за комментарии джентльменам (и отдельное спасибо Алексею за исправление \log, я постоянно их забываю); +1 к обоим. Я видел газету Робертсона и собирался добавить ее; это действительно хорошее чтение, я добавлю его в основной текст.

usεr11852

@ Anony-Mousse (pdf)

Кошка Морж

Я хочу знать, почему вместо «используется максимальное количество вхождений для любой строки Q в документе D» number of occurrences for all strings in document D. Почему мы хотим, чтобы количество наиболее распространенных слов, а не всех слов?

Xeoncross