Некоторое время я наслаждался чтением ServerFault, и я наткнулся на довольно много тем по Hadoop. У меня были небольшие проблемы с выяснением того, что он делает с глобальной точки зрения.
Поэтому мой вопрос довольно прост: что такое Hadoop? Что оно делает ? Для чего это используется ? Почему это надрать задницу?
Редактировать: если у кого-то есть демонстрации / объяснения случаев использования Hadoop, это было бы замечательно.
Ответы:
Прямо изо рта лошади :
Map / Reduce - это парадигма программирования, которая стала популярной в Google, где задача делится на небольшие части и распределяется по большому количеству узлов для обработки (отображения), а затем результаты обобщаются в окончательный ответ (уменьшить ). Google и Yahoo используют это для своих технологий поисковой машины, между прочим.
Hadoop - это общая структура для реализации такого рода схемы обработки. Что касается того, почему он пинает задницу, главным образом потому, что он обеспечивает аккуратные функции, такие как отказоустойчивость, и позволяет вам собрать практически любое оборудование для обработки. Он также очень хорошо масштабируется, если ваша проблема соответствует парадигме.
Вы можете прочитать все об этом на сайте .
Что касается некоторых примеров, Пол привел несколько примеров, но вот еще несколько, которые вы могли бы сделать, но не такие веб-ориентированные:
а затем результаты суммируются на этапе «уменьшения».
По сути, модель очень хорошо работает для задачи, которая может быть разбита на аналогичные дискретные вычисления, которые полностью независимы и могут быть объединены для получения окончательного результата.
источник
У Cloudera есть несколько отличных видео, которые объясняют принципы Map Reduce и Hadoop
http://www.cloudera.com/hadoop-training-basic
Одна из основных идей MapReduce заключается в том, что для больших наборов данных вы будете привязаны к дискам, поэтому в Hadoop HDFS вы сможете разделить объекты между множеством узлов, что позволит выполнять параллельную обработку.
Некоторое использование Hadoop, представляющее интерес для системных администраторов, часто связано с обработкой больших наборов файлов журналов - я могу опубликовать только одну ссылку, но они включают: Google должен найти их:
источник
Изначально hadoop разрабатывался для большого количества наборов данных в среде OLAP.
С введением Hbase поверх hadoop, тростник можно использовать и для OLAP Processing. Hadoop - это фреймворк со всеми подкомпонентами, такими как map lower, hdfs, hbase, pig.
На первом месте представлена статья с основами hadoop в разделе Почему Hadoop .
В Hadoop хранилище данных в виде файлов, а не таблиц, столбцов.
источник