Правильно ли называть инфраструктуру mapReduce типом структуры объемного синхронного параллельного программирования без сохранения локальной памяти в процессорах между синхронизациями? Если нет, то какая модель параллельного программирования наиболее точно инкапсулирует каркас mapReduce?
dc.parallel-comp
machine-models
Джефф Кубина
источник
источник
Ответы:
В разделе 2 http://arxiv.org/abs/1101.1902 авторы определяют модель MapReduce, которая намеренно структурирована как BSP. Они также доказывают теоремы моделирования. Может быть, хорошее место для начала.
источник
Да, я считаю, что классический MapReduce - это модель BSP (и, следовательно, имеет свои ограничения на максимально возможную параллельную производительность, которая может быть достигнута). Тем не менее, новая работа над MapReduce, кажется, сосредоточена на более слабых понятиях синхронизации, что вывело бы этот «обобщенный MapReduce» из строгой структуры BSP. В частности, если реплицировать некоторые данные, структура синхронизации может быть ослаблена, что приведет к повышению производительности.
См., Например, работу Foto Afrati и Джеффа Уллмана: Оптимизация объединений в среде сокращения карт , EDBT 2010. ( препринт )
источник
Поскольку в MapReduce существует простой и структурированный граф, лежащий в основе вычислений, это может быть ИМХО классифицировано как модель потока данных.
источник