Оперативная память в зеркальном режиме: стоит ли это того?

18

Не совсем знаком с «режимом зеркального канала» Intel для установки Blade-сервера (ваша типичная база данных MySQL умеренной нагрузки OLTP, работающая на «голом железе»; сейчас нет виртуализации).

Из документов Intel я смог найти:

Процессоры Intel Xeon серии 5500 и Intel Xeon серии 5600 поддерживают зеркалирование каналов для настройки доступных каналов модулей DIMM DDR3 в зеркальной конфигурации. Зеркальная конфигурация является избыточным образом памяти и может продолжать работать, несмотря на наличие случайных неисправимых ошибок. Зеркальное отображение каналов - это функция RAS, в которой поддерживаются два идентичных изображения данных памяти, что обеспечивает максимальную избыточность.

На процессорах Intel Xeon серии 5500 и Intel Xeon Processor 5600 на базе серверных плат Intel, зеркальное отображение осуществляется по каналам. Активные каналы содержат первичное изображение, а другие каналы - вторичное изображение системной памяти. Интегрированный контроллер памяти в процессорах Intel Xeon серии 5500 и Intel Xeon Processor серии 5600 чередует оба канала для чтения транзакций. Операции записи выдаются на оба канала при нормальных обстоятельствах.

Тем не менее, я не особо понимаю, что они лежат здесь. Я теряю половину своей емкости, но получаю «избыточность» памяти и возможное увеличение производительности чтения / записи? Как RAID 1 для оперативной памяти? У кого-нибудь есть практический опыт работы с этой конфигурацией?

gravyface
источник

Ответы:

7

Лично я бы скорее использовал некую форму кластеризации, чем этот уровень аппаратной устойчивости. Для таких дешевых компонентов, как диски, имеет смысл удвоить их, но зеркалирование памяти желательно, но не очень полезно. Я имею в виду то, что более вероятно потерпит неудачу; процессор, ваша ОС, ваше программное обеспечение, ваш mobo, ваш блок питания / с. Я бы скорее положил деньги на кластеризацию.

Chopper3
источник
1
Точно мои мысли: хотя, безусловно, полезно для очень конкретной точки отказа, я мог бы отметить еще много «блоков» HA, пройдя маршрут кластеризации с другим блейдом или двумя (и, вероятно, другим шасси в другом центре обработки данных).
gravyface
1
Кластеризация не поможет вам, когда вычисления должны выполняться по графику или в пределах графика. В некоторых ситуациях аварийное переключение занимает больше времени, чем требуется для выполнения операции
Джим Б
7

«RAID 1 для оперативной памяти» является точным описанием. По моему опыту, выигрыш в производительности невелик, но в зависимости от скорости шины и скорости модулей ваш пробег может варьироваться.

Что касается избыточности ... ну, не очень часто модуль выходит из строя.

Лично я отключаю зеркалирование всякий раз, когда вижу его включенным.

Шейн Мэдден
источник
2
спасибо Шейн Вы когда-нибудь проводили сравнительный анализ до / после?
gravyface
@gravyface Не могу сказать, что у меня, к сожалению; просто не заметил заметной производительности, отличной от vs off (на серверах баз данных и vm hosts). Некоторые жесткие цифры определенно были бы хорошими.
Шейн Мэдден
2
Я собираюсь сделать некоторые тесты тогда. Посмотрите, если это имеет значение. Не могу сказать, что выгода от исправления ошибок звучит как ощутимая выгода, но мне любопытно посмотреть, как она работает. Я собираюсь подождать пару дней для получения дополнительных ответов, а затем отметить это как правильное.
Gravyface
Я вижу, что диммы регулярно портятся, однако, учитывая размер окружающей среды, я должен видеть 1 димм каждые 2 недели (по статистике)
Джим Б
4

Я читал, что подобные вещи (вы можете делать это и с процессорами) очень полезны в огромных кластерах суперкомпьютеров.

Некоторые из этих кластеров работают так много машин, что каждые пару часов происходит сбой машины. Быстрее, чем задания можно выполнить. Это действительно портит вычисления. Добавление такой избыточности к каждому узлу может более чем удвоить время между сбоями.

Зан Рысь
источник
так что это высококлассные вещи, которые сейчас распространяются на мейнстрим, я так понимаю. Не вижу особой ценности для моих нужд. Спасибо хоть.
gravyface
Да, это высокий класс. Подождите, пока вы не получите горячую замену ЦП и ЗЕРКАЛА ЦП (!) На ПК;) В случае сбоя мэйнфреймы могут переключаться на другой процессор.
TomTom
3

Этот режим памяти действительно был разработан для ситуаций, когда вам нужна высокая доступность. Вы не должны видеть большой разницы в производительности (так как потеря одного канала, вероятно, не заметна при обычных операциях), однако вы фактически теряете много оперативной памяти. При включенном зеркалировании для использования доступна только треть общей памяти, поскольку два слота DIMM являются основным каналом, два слота DIMM являются резервным каналом, а два слота DIMM не используются. (по крайней мере, так на IBM)

Обычно я рекомендую отключить его (если у вас есть приложение или операционная система, которая любит оперативную память - и давайте посмотрим правде в глаза: есть такая, которой нет?) Или сохранить ее для обновления до набора микросхем ex5 от IBM (hp и другие скоро). следовать с аналогичными предложениями), что добавляет больше QPI.

Иногда «этот сервер должен работать независимо от количества выстрелов», и этот тип избыточности помогает. Кроме того, вы приобрели баран менее звездного качества, это может спасти вас от синего экрана или 2.

Джим Б
источник
Да, сейчас не вижу особой необходимости в этом. Очевидно, что никому не нравятся простои, но когда мы обратимся к HA, мы наверняка рассмотрим кластеризацию.
gravyface
1
это в ответ на ваше «видеть один плохой DIMM каждые две недели» - как часто вы видите плохие DIMM после льготного периода? Я не могу вспомнить, чтобы когда-либо был плохой ОЗУ в производстве Я обычно замечаю это первые несколько часов / дней при типичной рабочей нагрузке.
gravyface
Наши результаты отражают скорость, которую видит Google cs.toronto.edu/~bianca/papers/sigmetrics09.pdf . У нас аналогично настроены серверные платы с большим количеством диммеров и приложениями, которые требуют много памяти. Просматривая одну из моих сред VMware, я вижу 3 диммера в 18 полностью заполненных IBM hs22vs (324 димма). Эти серверы работают уже около года.
Джим Б