Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора?
Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее определенного набора слов, мы можем порекомендовать ему интересный контент, получив его отзыв о случайном количестве уже классифицированных сообщений. перед.
Мы можем использовать эту информацию, чтобы рекомендовать ему импульсы, помеченные этими классами. Но мы обнаружили, что если мы использовали предопределенный пакет слов, не относящихся к нашему контенту, вектор функций будет заполнен нулями, также категории могут не относиться к нашему контенту. поэтому по этим причинам мы попробовали другое решение, которое будет кластеризовать наш контент, а не классифицировать его.
Спасибо :)
Ответы:
Некоторыми стандартными наборами данных для классификации текста являются группа 20-News, Reuters (с 8 и 52 классами) и WebKb. Вы можете найти их все здесь .
источник
Один из наиболее широко используемых наборов тестов для исследования категоризации текста (ссылка ниже). Я использовал много раз. Приятного изучения :)
http://www.daviddlewis.com/resources/testcollections/reuters21578/ или http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
источник
Существует множество наборов данных, выпущенных UC Irvine для игры здесь . Среди этих наборов данных есть несколько десятков текстовых наборов данных, которые могут помочь вам, ребята, с вашей задачей.
Это своего рода общие наборы данных, поэтому в зависимости от вашей цели они не должны использоваться в качестве единственных данных для обучения ваших моделей, иначе ваша модель - хотя она может работать - не даст качественных результатов.
источник
Помимо предложений, приведенных выше, существует чрезвычайно полезный файл PDF - сравнительный анализ текстовых коллекций для задач классификации и кластеризации, который содержит различные наборы данных наряду с контрольными показателями для тестирования наших моделей. Это включает в себя 20ng Collection, Reuters и многие из предложенных выше наборов данных. Я надеюсь, что это помогает!
источник