Я был впечатлен результатами в работе ICML 2014 года « Распределенное представление предложений и документов » Ле и Миколова. Техника, которую они описывают, называемая «векторами абзацев», изучает неконтролируемые представления произвольно длинных абзацев / документов на основе расширения модели word2vec. В статье сообщается о современных достижениях в анализе настроений с использованием этой техники.
Я надеялся оценить эту технику на других проблемах классификации текста, как альтернативу традиционному представлению мешка слов. Тем не менее, я наткнулся на сообщение второго автора в ветке в группе Google word2vec, которая заставила меня задуматься:
Я пытался воспроизвести результаты Куока летом; Я мог бы получить процент ошибок в наборе данных IMDB примерно до 9,4% - 10% (в зависимости от того, насколько хороша нормализация текста). Однако я не смог приблизиться к тому, что Quoc сообщал в статье (ошибка 7,4%, это огромная разница) ... Конечно, мы также спросили Quoc о коде; он обещал опубликовать его, но пока ничего не произошло. ... Я начинаю думать, что результаты Quoc на самом деле не воспроизводимы.
У кого-нибудь уже был успех в воспроизведении этих результатов?
Ответы:
Сноска на http://arxiv.org/abs/1412.5335 (один из авторов - Томас Миколов) говорит
источник