Когда создание кластера в облаке дешевле, чем создание кластера в моей лаборатории для моделирования MD?

23

Amazon EC2 Compute Cluster стоит около $ 800- $ 1000 ( в зависимости от рабочего цикла) на физическое ядро процессора в течение 3 -х лет. В нашем последнем раунде приобретения оборудования моя лаборатория взяла на вооружение оборудование на 48 ядер, очень похожее на кластеры Amazon, по цене около $ 300 за ядро.

Я что-то здесь упускаю? Существуют ли ситуации, в которых экономически целесообразно создавать кластер в облаке для задач с высокой загрузкой ЦП, таких как моделирование молекулярной динамики? Или мне всегда лучше просто строить и присматривать за машиной?

(Я должен отметить, что моя лаборатория не оплачивает электричество в нашей серверной комнате (по крайней мере, не напрямую), но даже с этим преимуществом Amazon все еще кажется чрезвычайно дорогим).

телефон
источник
2
Я могу сказать вам одну вещь: вам не хватает трудозатрат на администрирование и обслуживание кластера. В академической среде кто-то должен быть администратором кластера и выполнять всю основную работу, такую ​​как обновления и обновления системы ОС, установка нового программного обеспечения, техническая поддержка при выходе из строя кластера и так далее. Эти задачи неблагодарны, и в зависимости от навыков администратора могут потребовать много времени. Кластер EC2 сократит количество человеко-часов, необходимых для обслуживания кластера.
Джефф Оксберри
1
Ну, вы, очевидно, получили оборудование дешево. Я рассчитал затраты за 3 года для 192-ядерного кластера на моем прежнем рабочем месте, и он составил более 850 долларов на ядро ​​в год. Не говоря уже о всех проблемах, которые у нас были с системой питания и охлаждением ...
Христо Илиев
@ GeoffOxberry Вы хорошо оценили стоимость рабочей силы. В моей лаборатории я администратор, поэтому я не думаю о таких вещах. Как ни печально, но иногда это труд любви. Если бы у меня были деньги и куда-нибудь их положить, я бы следовал (редким) инструкциям в этом блоге и пытался построить свой собственный Уотсон.
тел
@HristoIliev Я даже не думаю, что это было так дешево. Если вы хотите взять «слегка используемые» кластеры у Dell, вы можете снизить стоимость до ~ 200 долларов за ядро. Можете ли вы рассказать мне больше об оборудовании на вашем прежнем рабочем месте?
тела
1
Это специальная система с 12 сдвоенными шасси Supermicro с двумя разъемами Xeon (24 узла, 48 E5420) с 16 ГБ ОЗУ ECC на каждом узле, один однорозетный аппарат Nehalem с 2 Tesla M2090, 24-портовый коммутатор InfiniBand, один файловый сервер на 4 диска, два ИБП 10 кВА, два кондиционера. Мы получили его в несколько этапов в течение трехлетнего проектного периода. Не самый большой из самых больших, но все же ~ 100 000 евро (лучшие академические цены в Болгарии).
Христо Илиев

Ответы:

15

Основное преимущество, на мой взгляд, использования облачных ресурсов - это гибкость, т. Е. Если у вас колеблющаяся рабочая нагрузка, вы платите только за то, что вам нужно.

Если это не так в вашем приложении, то есть вы знаете, что у вас будет измеримая и постоянная рабочая нагрузка, тогда вам, вероятно, лучше построить свой собственный кластер. В облаке вы платите за гибкость, а если вам не нужна гибкость, вы платите за то, что вам не нужно.

Если ваша рабочая нагрузка является гибкой, но несколько интенсивной и зависит от определенных аппаратных функций (см. Ответ aeismail), вы можете попробовать поделиться кластером с другими людьми в вашем университете, чтобы амортизировать циклы простоя. Мой старый университет использует такой общий кластер с «моделью акционеров», в которой каждой группе гарантируется доля вычислительной мощности, пропорциональная их инвестициям в аппаратные средства, и циклы простоя могут быть использованы любым. Единственная сложность - централизация администрирования кластера.

Pedro
источник
3
Точка, ключ является «измеримым и постоянным». Обычно рабочая нагрузка значительно варьируется, и недоиспользование вполне может сделать эту стоимость намного выше, чем $ 300 / ядро. Кроме того, при настройке облачных вычислений легко масштабировать до большего количества экземпляров, если это необходимо временно (за неделю до конференции?).
Фил Х
1
+1 за это. Мое использование кластеров переходит от 0 к периоду «Ты что сделал !?». Я не могу позволить себе заплатить за второго, когда он мне понадобится.
Fomite
7

Есть некоторые вещи, о которых нужно беспокоиться, когда вы выполняете облачные вычисления с симуляциями MD. Например, вам нужно беспокоиться о физической компоновке процессоров в ферме серверов, где будут выполняться эти задания. Причина в том, что в зависимости от размера ваших симуляций и типов вычислений, которые вы выполняете (например, системы с электростатикой), вы можете сильно зависеть от БПФ - и толкать электроны к разным процессорам в гигантском кластере. может стать очень трудоемкой частью общего времени вычислений.

Кроме того, для такого большого объема данных, как MD, вам нужно убедиться, что у вас есть быстрая загрузка и загрузка подключений к серверам, а также разумные ограничения на хранение данных. В противном случае большая часть экономии может быть потеряна из-за потери производительности и расходов на хранение.

Что бы это ни стоило, наш институт только что купил около 240 ядер для нашего локального кластера по цене менее 500 евро за ядро. Эта стоимость включает в себя хостинг и администрирование, а также обслуживание в нашем кампусе в течение четырех лет. В годовом исчислении это кажется смехотворно дешевым. Я думаю, что это, вероятно, лучшее из обоих миров - локальный доступ, но профессионально поддерживаемый, без нашей собственной ИТ-команды.

aeismail
источник
5

У меня нет непосредственного опыта работы с облачными сервисами, такими как Amazon EC2, но фактическая стоимость на ядро, вероятно, намного выше, чем вы указываете: это стоимость первоначальной покупки, электричества, охлаждения, пространства в здании, замены оборудования. Плюс затраты на администрирование: настройку ОС и служб кластера, поддержание операционной системы в актуальном состоянии, устранение неполадок в очереди и т. Д. Я бы совсем не удивился, если бы сумма всего этого вдвое превышала стоимость первоначальной покупки. Конечно, вы получаете гибкость.

Для меня модель сводится к масштабу: если у вас действительно большой кластер (1000 ядер или более), то вы можете амортизировать рабочее время, ремонт, системное администрирование, потому что этого достаточно, чтобы заняться профессионалом. Если у вас есть небольшой кластер, в котором не стоит заниматься специальным человеком, то вполне вероятно, что вы заставите кого-то сделать это, чья первая работа должна заключаться в том, чтобы заниматься наукой, и в этом случае время этого человека плохо расходуется на такие административные работы. Это где службы по запросу, такие как облачные серверы сияют.

Вольфганг Бангерт
источник
В моей лаборатории все электричество, охлаждение и пространство для нашего кластера оплачиваются за счет того, что наш университет берет из наших грантов на оплату услуг. Это сокращение одинаково, независимо от того, запускаем ли мы кластер или нет. Знаете ли вы, есть ли подобная ситуация в большинстве университетов, или большинство лабораторий застряло, платя за охлаждение и т. Д. Прямо из кармана?
тел
1
Я полагаю, что у большинства лабораторий такая же схема, как и у вас, но было бы неправильно игнорировать эти расходы в любом случае. Кто-то должен будет взять их на себя, даже если это не вы лично. Возможно, стоит попросить департамент / университет вернуть вам большую долю косвенных расходов, если вы согласны построить кластер виртуально в облаке, а не физически в кампусе.
Вольфганг Бангерт
4

В дополнение к некоторым из уже превосходных ответов, есть еще один фактор, который следует учитывать:

  • Независимо от стоимости, как вы собираетесь платить за это?

Я столкнулся с нетривиальным количеством грантов, которые которые ни при каких обстоятельствах не будут оплачивать расходы на аппаратное обеспечение, но будут оплачивать вычислительное время на чем-то вроде EC2. Таким образом, при определенных обстоятельствах финансирования, в то время как вы можете финансировать небольшой «испытательный» кластер за счет неструктурированных средств или пакета запуска лаборатории, для крупномасштабных проектов это может быть единственным способом финансирования ваших вычислительных затрат.

Рассмотрим NIH:

ADP / Компьютерные услуги: Услуги, которые вы здесь включаете, должны быть направлены на изучение конкретных компьютерных услуг, таких как резервирование вычислительного времени на суперкомпьютерах или приобретение специализированного программного обеспечения для ведения вашей статистики. Этот раздел не должен включать ваш стандартный настольный офисный компьютер, ноутбук или стандартную техническую поддержку, предоставляемую вашим учреждением. Эти виды сборов должны исходить из стоимости F & A.

Хотя кластерные машины можно поставить под заголовок «Оборудование стоимостью более 5000 долларов США», и вы можете привести веские аргументы в пользу этого, я нашел как рецензентов, которые скептически относятся к этому, так и университеты, которые сомневаются в постоянных затратах на поддержание такого уровня. система.

Некоторые гранты еще более строгие. Один грант у меня в настоящее время гласит следующее:

Средства также не могут быть использованы для компьютерной техники

Зачастую проще просто получить кластер, оплачиваемый прямыми затратами, если он базируется на EC2 или одном из его многочисленных аналогов, чем фактически покупать оборудование, особенно если ваша организация скупа на косвенные расходы. Это может быть не так для вас, но это касается некоторых.

фомиты
источник
Я думаю, что это не хороший аргумент. Я только знаком с системой финансирования в США, но там, если вы поместите определенную сумму денег в категорию «Оборудование», вы можете использовать ее для покупки кластера. Конечно, если эта категория пуста, значит, вы запросили неправильный набор долларов. У оборудования на самом деле есть хорошее преимущество в том, что если это единичное оборудование, стоимость которого превышает 5 тыс. Долларов, вы вообще не платите за него (по крайней мере, в нашем университете).
Вольфганг Бангерт
@WolfgangBangerth Подробности см. В моем редакторе - размещение в категории «Оборудование» может быть недопустимым.
Fomite
Да, если это такие условия, то вы ничего не можете сделать. Но я обнаружил, что если у вас есть хороший пример того, почему вы запрашиваете деньги на оборудование в гранте, то рецензенты обычно соглашаются с ним - обычно это не большая часть общей суммы в любом случае. Конечно, если деньги не были заложены в бюджет с самого начала, вы ничего не можете сделать после факта.
Вольфганг Бангерт
0

Уже есть много ответов Бога. Я просто хочу добавить две маленькие точки.

1.) Я знаю, что IBM предлагает нечто подобное. Поэтому, в зависимости от вашего приложения, возможно, стоит сравнить различные предложения. Не только в отношении стоимости, но и оборудования.

2.) Конечно, большинство лабораторий слишком малы, чтобы иметь возможность инвестировать в собственный кластер. Таким образом, вопрос заключается в том, нельзя ли собрать несколько лабораторий вместе и инвестировать в кластер, который совместно используется различными лабораториями. Это имеет помимо очевидного эффекта разделения затрат и преимущество более равномерного распределения нагрузки.

Azrael3000
источник