Были ли воспроизведены современные результаты использования векторов абзацев для анализа настроений?

Я был впечатлен результатами в работе ICML 2014 года « Распределенное представление предложений и документов » Ле и Миколова. Техника, которую они описывают, называемая «векторами абзацев», изучает неконтролируемые представления произвольно длинных абзацев / документов на основе расширения модели word2vec. В статье сообщается о современных достижениях в анализе настроений с использованием этой техники.

Я надеялся оценить эту технику на других проблемах классификации текста, как альтернативу традиционному представлению мешка слов. Тем не менее, я наткнулся на сообщение второго автора в ветке в группе Google word2vec, которая заставила меня задуматься:

Я пытался воспроизвести результаты Куока летом; Я мог бы получить процент ошибок в наборе данных IMDB примерно до 9,4% - 10% (в зависимости от того, насколько хороша нормализация текста). Однако я не смог приблизиться к тому, что Quoc сообщал в статье (ошибка 7,4%, это огромная разница) ... Конечно, мы также спросили Quoc о коде; он обещал опубликовать его, но пока ничего не произошло. ... Я начинаю думать, что результаты Quoc на самом деле не воспроизводимы.

У кого-нибудь уже был успех в воспроизведении этих результатов?

text-mining natural-language word-embeddings sentiment-analysis reproducible-research bskaggs
источник

Изменилась ли эта ситуация, пока? Я знаю, что Gensim реализовал версию doc2vec (векторы абзаца / документа), см .: radimrehurek.com/gensim/models/doc2vec.html, но не пытался воспроизвести результаты в цитируемой здесь статье.

Doctorambient

Да, были попытки воспроизвести результаты работы с помощью gensim : см. Блокнот doc2vec IPython .

Радим

Ответы:

Сноска на http://arxiv.org/abs/1412.5335 (один из авторов - Томас Миколов) говорит

В наших экспериментах, чтобы соответствовать результатам (Le & Mikolov, 2014), мы следовали предложению Quoc Le использовать иерархический softmax вместо отрицательной выборки. Однако это дает результат точности 92,6% только тогда, когда данные обучения и испытаний не перемешиваются. Таким образом, мы считаем этот результат неверным.

Михаил Коробов
источник

Я не понимаю, почему "не перемешано" ==> недействительно. Нет ли четко определенного разделения между поездом / испытательным набором? То, что представляет собой поезд / тест, зависит от того, как вы перетасовываете (оригинальный) набор данных? Порядок набора тестов не должен иметь значения (нет динамической оценки, верно?). И порядок тренировочного набора тоже не должен иметь большого значения ...

capybaralet

@ user2429920 Если они получают различия, то ясно, что порядок действительно имеет значение.

JAB