Вопросы с тегом «information-retrieval»

19
Текстовая категоризация: объединение различных видов функций

Проблема, с которой я сталкиваюсь, состоит в классификации коротких текстов на несколько классов. Мой текущий подход заключается в использовании частотных терминов tf-idf и изучении простого линейного классификатора (логистическая регрессия). Это работает достаточно хорошо (около 90% макроса F-1 в...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

10
Извлечь каноническую строку из списка шумных строк

У меня есть тысячи списков строк, и каждый список имеет около 10 строк. Большинство строк в данном списке очень похожи, хотя некоторые строки (редко) полностью не связаны с другими, а некоторые строки содержат нерелевантные слова. Их можно считать шумными вариациями канонической струны. Я ищу...

9
Как создать хороший список стоп-слов

Я ищу несколько советов о том, как составить список стоп-слов. Кто-то знает / кто-то может порекомендовать хороший метод для извлечения списков стоп-слов из самого набора данных для предварительной обработки и фильтрации? Данные: огромное количество вводимого человеком текста различной длины...