Понимание использования логарифмов в логарифме TF-IDF

10

Я читал:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Но я не могу понять, почему именно формула была построена такой, какая она есть.

Что я делаю Понять:

iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как термин появляется чаще.

С этой точки зрения

яDF(S)знак равно# документов# документов, содержащих S

Кроме того, термин частота может быть справедливо описан как

Tе(S,D)знак равно# Происшествий S в документе D# максимальное количество вхождений для любой строки Q в документе D

Итак, мера

яDF(S)×Tе(S,D)

в некоторой степени пропорционален тому, как часто термин встречается в данном документе, и насколько уникальным этот термин является над набором документов.

Что я не понимаю

Но данная формула описывает это как

(журнал(яDF(S)))(12+журнал(12Tе(S,D)))

Я хочу понять необходимость логарифмов, описанных в определении. Мол, почему они там? Какой аспект они подчеркивают?

frogeyedpeas
источник

Ответы:

9

п(A,В)знак равноп(A)п(В)журнал(п(A,В))знак равножурнал(п(A))+журнал(п(В))

Как показывает ссылка на статью в Википедии, обоснование TF-IDF до сих пор не установлено; это эвристика, которую мы хотим сделать строгой, а не строгая концепция, которую мы хотим перенести в реальный мир. Как упомянул @ Anony-Mousse, в качестве очень хорошего прочтения по этому вопросу приводится Робертсон: « Понимание частоты обратных документов: теоретические аргументы в пользу IDF» . Он дает широкий обзор всей структуры и пытается основать методологию TF-IDF на значимости релевантности поисковых терминов.

usεr11852
источник
4
Некоторое обоснование TF-IDF можно найти в «Формальном исследовании эвристики поиска информации», 2004, Fang, Hui et al. ( Pdf ).
Алексей Григорьев
3
Я думаю, что это лучший справочник для обоснований TF-IDF: Робертсон, С. (2004). «Понимание частоты обратных документов: теоретические аргументы в пользу ИДФ». Журнал документации 60 (5): 503–520.
Выйти - Anony-Mousse
Спасибо за комментарии джентльменам (и отдельное спасибо Алексею за исправление \log, я постоянно их забываю); +1 к обоим. Я видел газету Робертсона и собирался добавить ее; это действительно хорошее чтение, я добавлю его в основной текст.
usεr11852
@ Anony-Mousse (pdf)
Кошка Морж
Я хочу знать, почему вместо «используется максимальное количество вхождений для любой строки Q в документе D» number of occurrences for all strings in document D. Почему мы хотим, чтобы количество наиболее распространенных слов, а не всех слов?
Xeoncross