У меня есть базовое облако, работающее на Ubuntu Server (9.04) и Eucalyptus. Walrus (совместимая с Eucalyptus API реализация S3) хранит файлы на облачном контроллере. Однако каждый из 4 других серверов имеет 1 ТБ хранилища, которое в основном не используется. Я ищу способ объединить все хранилище вместе, чтобы использовать все доступные ресурсы. Я разглядывал различные варианты, включая PVFS, Lustre, HDFS (Hadoop).
Единственное, что мне нужно, - это чтобы его можно было масштабировать и чтобы он хорошо работал в Ubuntu. Я был бы признателен всем, кто имеет опыт работы с такими технологиями, и я с нетерпением жду ваших предложений.
ubuntu
storage
cloud-computing
бойкий
источник
источник
Ответы:
Хотя я лично нигде не реализовывал это в наших системах, я довольно широко изучал Gluster . Я знаю несколько человек на некоторых крупных сайтах, которые используют это, и это, очевидно, работает очень хорошо. Они используют его в производстве для некоторых высокопроизводительных применений HPC.
источник
GlusterFS показался бы мне идеальным решением. Парню, который утверждает, что Gluster требует много усилий, чтобы настроить, я должен сказать, что он, вероятно, никогда не пытался. Начиная с Gluster 3.2, утилиты конфигурирования довольно крутые, и требуется 2 или 3 команды для увеличения громкости и общего доступа к сети. Установить объемы кластера одинаково просто.
С положительной стороны это также дает вам гораздо больше гибкости, чем NFS. Он выполняет чередование, репликацию, георепликацию, конечно, POSIX-совместимость и так далее. Существует расширение под названием HekaFS, которое также добавляет SSL и более продвинутые механизмы аутентификации, что, вероятно, интересно для облачных вычислений. И это масштабируется! Это F / OSS и разрабатывается RedHat, который недавно приобрел Gluster.
источник
Вы когда-нибудь смотрели на mogileFS? http://danga.com/mogilefs/
В традиционном смысле это не файловая система, но она хороша для распределения файловых данных по кластеру (с учетом репликации и избыточности).
Если вы подаете файлы для веб-приложения, вам понадобится что-то для обслуживания файлов. Я бы предложил PHP-скрипт, который использует HTTP-запрос в качестве ключа поиска для поиска нужного вам файла в mogile FS. Затем вы можете прочитать содержимое файла в буфер и распечатать его.
MogileFS уже работает довольно быстро, но вы можете объединить mogileFS с memcache, чтобы ускорить доступ к наиболее часто используемым файлам.
источник
С Luster у вас должно быть специальное ядро на серверах, а у меня будут только серверы, являющиеся серверами, и ничего больше.
Странно, самый вменяемый ответ гораздо лучше NFS. Мы использовали NFS в облаке Amazon. Он может масштабироваться не так хорошо, как некоторые файловые системы, но простота не должна меня игнорировать. Одно пространство имен, вероятно, не стоит того усилия, которое потребуется для его реализации.
источник
Вы все еще изучаете HDFS? Один из ребят из Cloudera выступил с докладом на VelocityConf в этом году о Hadoop и HDFS, сфокусированных на управлении кластерами больших данных, поэтому он немного рассказал о HDFS. Слайды довольно информативны. Я не работал с HDFS лично, но я разговаривал с некоторыми случайными людьми из Velocity, которые используют его в Ubuntu для анализа различных данных.
источник
Размещение какой-то общей файловой системы в среде виртуализации довольно распространено. У вас есть много вариантов, в зависимости от того, что вы хотите сделать.
Самым простым решением, вероятно, является NFS, потому что это будет поддерживаться изначально любым дистрибутивом, который вы используете. NFS может работать достаточно хорошо в качестве серверной файловой системы виртуализации, хотя это не будет самой быстрой вещью.
Если вы используете кластер RedHat (или производный), у вас будет хорошая встроенная поддержка GFS2, кластерной файловой системы RedHat. Это не масштабируется до сотен узлов, но это хорошо для небольших кластеров.
Помимо этого, вы начинаете вводить ряд вещей, таких как Luster, Glusterfs, GPFS и так далее. Все это высокопроизводительные параллельные файловые системы, но для их настройки требуется значительно больше работы, чем для других вариантов. Если у вас большая среда, на них стоит обратить внимание.
источник
я согласен с @larsks в том, что NFS - лучший вариант; установить некоторые цели iSCSI, NFS, готово. это увеличится до 5-10 узлов; YMMV на основе ввода-вывода, возможностей сети и т. Д. (В качестве альтернативы, настройте iSCSI с поддержкой многопутевого ввода-вывода).
Если вам нужно что-то около 20+ узлов, вы можете изучить Ceph . Luster перспективен и стабилен, но является (F / OSS) продуктом Oracle, и мне не нравятся Oracle. :)
Ceph также довольно активен; самый последний выпуск был 5 дней назад.
источник
XtreemFS может быть решением для вас. Его довольно просто установить и настроить, есть также пакеты для Ubuntu.
источник
MooseFS (распределенная файловая система) соответствует вашим требованиям. Это масштабируемый и хорошо работает на Ubuntu. Также может быть полезно узнать, как установить / обновить MooseFS из официально поддерживаемого репозитория в Ubuntu .
источник
Не уверен, что вы делаете, но это звучит как потенциально интересное приложение для CouchDB .
источник
Вы можете попробовать PVFS2 . Это намного проще в настройке, чем Luster, и, как правило, быстрее, чем Gluster.
источник