Мешок слов для классификации текста: почему бы просто не использовать частоты слов вместо TFIDF?

24

Распространенным подходом к классификации текста является тренировка классификатора из «мешка слов». Пользователь берет текст, который должен быть классифицирован, и подсчитывает частоты слов в каждом объекте, после чего следует какое-то усечение, чтобы сохранить результирующую матрицу контролируемого размера.

Часто я вижу, как пользователи строят свой вектор признаков, используя TFIDF. Другими словами, частоты текста, отмеченные выше, уменьшены на частоту слов в корпусе. Я понимаю, почему TFIDF был бы полезен для выбора «самых отличительных» слов данного документа для, скажем, отображения человеку-аналитику. Но в случае категоризации текста с использованием стандартных контролируемых методов ОД, зачем беспокоиться о снижении веса по частоте документов в корпусе? Разве ученик сам не решит важность присвоения каждому слову / комбинации слов? Буду признателен за ваши мысли о том, какую ценность добавляет ИДФ, если таковая имеется.

shf8888
источник

Ответы:

29

Ответ очень прост: TF-IDF может достигать лучших результатов, чем простые термины частоты, в сочетании с некоторыми контролируемыми методами.

Канонический пример использует косинусное сходство как меру сходства между документами. Принимая косинус угла между векторным представлением документов TF-IDF, можно успешно извлечь соответствующие похожие документы с более высокой точностью, чем один TF.

Это связано с тем, что IDF снижает вес общих слов и выделяет необычные слова в документе. Большинство новостных статей не о страусах, поэтому новостная статья, содержащая «страуса», необычна, и мы хотели бы знать это, когда пытаемся найти документы, которые похожи.

Но в случае категоризации текста с использованием стандартных контролируемых методов ОД, зачем беспокоиться о снижении веса по частоте документов в корпусе? Разве ученик сам не решит важность присвоения каждому слову / комбинации слов?

ИксYИксYY), тогда мы упростили задачу себе и нашим бедным перегруженным компьютерам! Я думаю, что это недооцениваемый компонент в этой области - люди тратят много времени на изучение и анализ алгоритмов, потому что они не зависят от предметной области, но, зная больше о ваших данных и о проблеме, которую вы пытаетесь решить, можно предложить пути для улучшенный сбор данных или представление данных, которые делают задачу намного проще - и настолько простой, что модель изощренной сложности не требуется.

Ряд ресурсов можно найти здесь , который я воспроизвожу для удобства.

  • К. Спарк Джонс. «Статистическая интерпретация термина специфичность и его применение в поиске». Журнал документации, 28 (1). 1972.

  • Г. Солтон и Эдвард Фокс и У Гарри Ву. Msgstr "Расширенный поиск логической информации". Связь АСМ, 26 (11). 1983.

  • Дж. Солтон и М.Дж. Макгилл. «Введение в современный информационный поиск». 1983

  • Г. Солтон и К. Бакли. «Термин-взвешивание подходов в автоматическом поиске текста». Обработка информации и управление, 24 (5). 1988.

  • Х. Ву и Р. Лук и К. Вонг и К. Квок. «Интерпретация весовых коэффициентов TF-IDF как принятие решений об актуальности». ACM Сделки в информационных системах, 26 (3). 2008.

Sycorax говорит восстановить Монику
источник
Спасибо за примечание @ user777! Ценить это. Я смотрю на эти статьи. Существуют ли общие классы алгоритмов, которые мы ожидаем получить от TFIDF преимущественно по сравнению с просто TF?
shf8888
@ shf8888 Я не уверен, есть ли общие классы, где один лучше. Это возможно! Насколько мне известно, первый рефлекс того, кто работает над задачей НЛП, - это попробовать TF, а затем TF-IDF в качестве базовых методов, прежде чем переходить к более сложной модели. Таким образом, вы можете количественно оценить, насколько повышенную производительность вы приобретаете для увеличения усилий, затрачиваемых на использование все более сложных моделей.
Sycorax говорит восстановить Monica
Большое спасибо! Ну, ответ, что «эмпирически TFIDF может обеспечить повышенную производительность по сравнению с TF с некоторыми алгоритмами» (если вы не возражаете против моего резюме из одного предложения), безусловно, хорош с моей точки зрения. Спасибо за ссылки.
shf8888
2

В типичном случае у вас может быть намного больше документов в вашем корпусе, чем помеченных документов. Это означает, что IDF может быть рассчитан гораздо более точно и полностью при использовании всего корпуса.

Далее рассмотрим случай, когда корпус, на который вы можете получить руки, все помечен или помечен как «достаточно большой». В этом случае количество итераций, необходимых для обучения, может быть меньше при использовании TfIDF, потому что алгоритму обучения не нужно будет учиться так много.

Наконец, в этом же случае вы также можете указать только tf или tf и idf отдельно (или даже включить tfidf). Я думаю, что это может привести к лучшим результатам, например, при использовании сложной функции ядра.

Сюри
источник