Я работаю над подсчетом «оборотной стороны» для настройки базы данных отчетов объемом 100 ТБ. Я ищу мысли от экспертов здесь. Предлагаемая среда:
- Емкость хранения ~ 100 ТБ
- Таблицы ~ 200, размеры от 1 ГБ до 5 ТБ. средний размер может лежать между 100 ГБ-200 ГБ
- ETL - задания могут требовать объединения между таблицами из 10 миллионов строк, с ключами объединения от 10 байтов до 500 байтов. такие объединения должны закончиться в течение 2-5 минут
- Live Selects - изначально интересует только выбор скорости. должен поддерживать 500 отборов / секунду. Количество обновлений в секунду будет относительно меньшим, и в этом упражнении их можно игнорировать.
- нужна круглосуточная доступность. 2 независимых сервера БД должны быть доступны для обслуживания отдельных вызовов (с реплицированными данными).
Вопросов:
- В настоящее время я смотрю на Oracle. Каков ваш опыт работы с другими коммерческими (или) решениями с открытым исходным кодом для больших баз данных?
- Какую аппаратную ОС вы видели лучше всего? Я планирую Linux на Dell.
- Является ли сетевое хранилище, такое как NetApp, обязательным? Какие проблемы вы предвидите с использованием коммерческих дисков?
- Как только оборудование и ОС будут готовы, сколько времени вы отведете на установку, настройку БД, хранилища и т. Д.
- Какие командные составы работали лучше всего в условиях, которые вы наблюдали? Я имею в виду, что различные администраторы (OS Admin, Oracle DB Admin?) Необходимы для управления и настройки такой установки. Сколько из них может понадобиться для обеспечения круглосуточной работы.
- Любое приближение / диапазон лицензий БД, стоимость сетевого хранилища.
Я знаю, что у меня нет всех деталей окружающей среды. Я не ищу точные детали, приближение достаточно. Хотя на некоторые вопросы лучше всего отвечают менеджеры, меня интересует точка зрения администраторов. Я ценю ваш вклад.
Ответы:
Первые впечатления
В зависимости от ваших требований к производительности, 100 ТБ - довольно агрессивный объем данных. Если вы хотите Oracle, вы должны проверить их системы Exadata. Кроме того, взгляните на предложения от Netezza или Teradata. При таком объеме выбора вы можете захотеть взглянуть на интерфейс на основе OLAP или, по крайней мере, на довольно агрессивное использование материализованных представлений и переписывания запросов. Вы не получите 500 сканирований таблицы / сек из всего.
Для материалов с менее строгими требованиями к задержке вы можете рассмотреть возможность увеличения количества витрин данных, чтобы предоставить возможности отчетности для вашего сообщества пользователей. В этом случае SQL Server и SSAS могут быть вариантом для витрин данных, поскольку лицензирование на большем количестве серверов будет дешевле, чем пытаться сделать то же самое с Oracle.
Смотрите (1). Обычное оборудование в архитектуре с общим диском, вероятно, будет медленным в этом наборе данных размера.
НЕТ! Если кто-нибудь предложит NFS, хорошо пинайте их. Либо хранилище с прямым подключением, либо SAN с несколькими контроллерами и большим количеством контроллеров среднего уровня. Подумайте, возможно, о паре дюжин контроллеров серии MD3000 или о чем-то подобном - если вы не собираетесь использовать специально созданную платформу «больших данных».
Получите специалиста по хранению с опытом работы с платформами хранилищ данных PB диапазона. Вероятно, вы готовы к серьезной работе по разработке ETL и большому количеству тестирований, если вам нужно встретить жесткий SLA.
24x7 в хранилище данных амбициозен в лучшие времена. Это платформа оперативной отчетности? Возможно, вы могли бы уточнить ваши требования немного.
Сфинктер - очень дорогой и зависит от ваших требований к производительности. Последнее, что я видел (пару лет назад), Netezza использовал 20 000 долл. США / ТБ для систем TwinFin, делая вашу платформу 2 млн. Долл. США за 100 ТБ плюс стоимость вашего резервного сервера и оборудования для резервного копирования. Я полагаю, что Exadata немного дешевле, но у меня нет никаких цен.
Взгляните на Netezza, Exadata и платформу Teradata для сравнения, а также на стоимость Ab Initio как инструмента ETL.
Это довольно агрессивный набор требований - 24x7 в хранилище данных обычно не выполняется, а объемы данных достаточно велики, чтобы поставить вас на уровень платформы «больших данных». Если у вас есть требование к оперативной отчетности, вы должны внимательно посмотреть, что это такое. Держите его отдельно от своей аналитики, если только у вас нет особой причины (например, рыночных данных с низкой задержкой) не делать этого. Смешивать операционные и аналитические требования на одной платформе плохо
Я думаю, что вам действительно нужно привлечь специалистов, чтобы оценить ваши требования. Без пристального взгляда на то, что вы пытаетесь достичь, все, что я могу дать, - это некоторые эмпирические предложения о том, что делать или не делать.
источник
Вот некоторые другие варианты, которые следует учитывать при работе с такими большими объемами данных:
Не планируйте экономить на оборудовании где-либо. Система с такими характеристиками обойдется вам в большие деньги.
источник