Я чуть не приземлился на Кассандре после исследования крупномасштабных решений для хранения данных. Но в целом говорят, что Hbase - лучшее решение для крупномасштабной обработки и анализа данных.
Хотя оба они представляют собой одно и то же хранилище ключей и значений, и оба они / могут работать (недавно Cassandra), уровень Hadoop делает Hadoop лучшим кандидатом, когда обработка / анализ требуется для больших данных.
Я также нашел хорошие сведения об обоих на http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/
но я все еще ищу конкретные преимущества Hbase.
Хотя я больше убежден в Cassandra, потому что это простота добавления узлов и бесшовной репликации, а также отсутствие функций точки отказа. И он также сохраняет функцию вторичного индекса, так что это хороший плюс.
Причина использования 100 узловых кластеров hBase не в том, что HBase не масштабируется до больших размеров. Это связано с тем, что проще выполнять обновления программного обеспечения hBase / HDFS непрерывно, не прерывая работу всего сервиса. Другая причина состоит в том, чтобы не допустить, чтобы один NameNode был SPOF для всей службы. Кроме того, HBase используется для различных служб (а не только для сообщений FB), и разумно использовать метод «вырезки cookie» для настройки многочисленных кластеров HBase на основе подхода из 100 узлов. Число 100 является специальным, мы не зацикливались на том, является ли 100 оптимальным или нет.
источник