Как отмечают Джимми Лин и Крис Дайер в первой главе своей книги, посвященной интеллектуальному анализу текста с помощью MapReduce , при больших масштабах данных производительность различных алгоритмов сходится так, что различия в производительности практически исчезают. Это означает, что при достаточно большом наборе данных алгоритм, который вы хотите использовать, является вычислительно менее затратным в вычислительном отношении. Разница в производительности между алгоритмами имеет значение только при меньших масштабах данных.
Тем не менее, их книга (ссылка выше) и « Добыча массивных наборов данных » Ананда Раджарамана, Юре Лесковца и Джеффри Д. Уллмана, вероятно, две книги, которые вы тоже захотите проверить, тем более что они непосредственно связаны с MapReduce. для целей интеллектуального анализа данных.
Если у вас есть доступ к кластеру Hadoop, я бы посмотрел на Spark. https://spark.apache.org/
источник
Никто не упомянул следующую статью - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Эндрю Нг является одним из авторов)
Сам документ предназначен для многоядерных машин, но по сути он касается пересмотра проблем машинного обучения, чтобы они соответствовали шаблону сокращения карт и могли использоваться для кластера компьютеров. (чтобы понять, почему это не очень хорошая идея, вы можете прочитать эту статью - http://arxiv.org/pdf/1006.4990v1.pdf . У нее хороший обзор).
источник
Расширение возможностей машинного обучения : параллельные и распределенные подходы - замечательная книга Джона Лэнгфорда и др. и др. это обсуждает параллельные реализации контролируемых и неконтролируемых алгоритмов. В нем говорится о MapReduce, ансамблях дерева решений, параллельных K-средних, параллельных SVM, распространении убеждений и AD-LDA.
https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242
источник