У меня сложилось впечатление, что многое из того, что здесь делается, крайне эвристично. Фактически, большинство людей, кажется, применяют это к <120 символам твиттеров. Вероятно, результаты (хотя и не рассчитываются таким образом) не намного лучше, чем подсчет «положительных» и «отрицательных» слов с небольшой информацией о положении («лучше, чем B» = положительно для A, отрицательно для B)
Когда вы видите, что компании покупают полный канал Twitter (сколько мбит в секунду?) И утверждают, что проводят анализ настроений по этому поводу, это серьезно заставляет меня задуматься, есть ли здесь какая-либо статистическая достоверность . Неудивительно, что, например, Yahoo не удалось предсказать предварительные выборы в Южной Каролине: http://www.technologyreview.com/web/39487/
Люди гордятся и стремятся к тому, чтобы вообще иметь возможность обрабатывать объем данных, и, похоже, они полностью пренебрегают правильной проверкой своей производительности.
Извините за такой пессимизм в отношении уровня техники.
ВЫЙТИ - Anony-Mousse
источник