Ответ очень прост: TF-IDF может достигать лучших результатов, чем простые термины частоты, в сочетании с некоторыми контролируемыми методами.
Канонический пример использует косинусное сходство как меру сходства между документами. Принимая косинус угла между векторным представлением документов TF-IDF, можно успешно извлечь соответствующие похожие документы с более высокой точностью, чем один TF.
Это связано с тем, что IDF снижает вес общих слов и выделяет необычные слова в документе. Большинство новостных статей не о страусах, поэтому новостная статья, содержащая «страуса», необычна, и мы хотели бы знать это, когда пытаемся найти документы, которые похожи.
Но в случае категоризации текста с использованием стандартных контролируемых методов ОД, зачем беспокоиться о снижении веса по частоте документов в корпусе? Разве ученик сам не решит важность присвоения каждому слову / комбинации слов?
ИксYИксYY), тогда мы упростили задачу себе и нашим бедным перегруженным компьютерам! Я думаю, что это недооцениваемый компонент в этой области - люди тратят много времени на изучение и анализ алгоритмов, потому что они не зависят от предметной области, но, зная больше о ваших данных и о проблеме, которую вы пытаетесь решить, можно предложить пути для улучшенный сбор данных или представление данных, которые делают задачу намного проще - и настолько простой, что модель изощренной сложности не требуется.
Ряд ресурсов можно найти здесь , который я воспроизвожу для удобства.
К. Спарк Джонс. «Статистическая интерпретация термина специфичность и его применение в поиске». Журнал документации, 28 (1). 1972.
Г. Солтон и Эдвард Фокс и У Гарри Ву. Msgstr "Расширенный поиск логической информации". Связь АСМ, 26 (11). 1983.
Дж. Солтон и М.Дж. Макгилл. «Введение в современный информационный поиск». 1983
Г. Солтон и К. Бакли. «Термин-взвешивание подходов в автоматическом поиске текста». Обработка информации и управление, 24 (5). 1988.
Х. Ву и Р. Лук и К. Вонг и К. Квок. «Интерпретация весовых коэффициентов TF-IDF как принятие решений об актуальности». ACM Сделки в информационных системах, 26 (3). 2008.
В типичном случае у вас может быть намного больше документов в вашем корпусе, чем помеченных документов. Это означает, что IDF может быть рассчитан гораздо более точно и полностью при использовании всего корпуса.
Далее рассмотрим случай, когда корпус, на который вы можете получить руки, все помечен или помечен как «достаточно большой». В этом случае количество итераций, необходимых для обучения, может быть меньше при использовании TfIDF, потому что алгоритму обучения не нужно будет учиться так много.
Наконец, в этом же случае вы также можете указать только tf или tf и idf отдельно (или даже включить tfidf). Я думаю, что это может привести к лучшим результатам, например, при использовании сложной функции ядра.
источник