Используйте liblinear на больших данных для семантического анализа

17

Я использую Libsvm для обучения данных и прогнозирования классификации по проблеме семантического анализа . Но он имеет производительность вопрос о крупномасштабных данных, поскольку касается семантического анализа п-размерности задачи.

В прошлом году был выпущен Liblinear , и он может решить проблемы с производительностью. Но это стоило слишком много памяти . Является ли MapReduce единственным способом решения проблемы семантического анализа больших данных? Или есть какие-то другие методы, которые могут улучшить узкое место в памяти на Liblinear ?

Тупик GDI
источник

Ответы:

11

Обратите внимание, что существует ранняя версия LIBLINEAR, портированная на Apache Spark . Смотрите комментарии к списку рассылки для некоторых ранних деталей и сайт проекта .

Шон Оуэн
источник
Спасибо за Ваш ответ. Похоже, отличается от SVM. Я рассмотрю это. :)
Puffin GDI
4
Просто напоминание о том, что мы не поощряем ссылки за пределы сайта на ответ, потому что ссылки легко ломаются, в результате чего полезный в других отношениях ресурс сообщества превращается в тупик. Всегда лучше поместить ответ прямо в ваш пост.
Ана
1
Согласитесь с этим. На данный момент он едва существует как нечто большее, чем эта ссылка в любом случае. Я добавлю ссылку на базовый проект.
Шон Оуэн
10

Вы можете проверить ваубал ваббит . Он довольно популярен для крупномасштабного обучения и включает в себя параллельные положения.

С их сайта:

VW - это сущность скорости в машинном обучении, способная легко извлекать уроки из терафеатурных наборов данных. Благодаря параллельному обучению он может превысить пропускную способность любого сетевого интерфейса одной машины при линейном обучении, что является первым среди алгоритмов обучения.

Марк Клазен
источник
1
Открытый исходный код и некоторые вики. Это выглядит хорошо. Спасибо за ваше предложение. :)
тупик GDI