Вопросы с тегом «data-warehouse»

Система баз данных, оптимизированная для отчетности, особенно в совокупности. Часто, но не всегда реализуется с использованием звездообразной схемы.

25
Как можно реализовать отношение «многие ко многим» в хранилище данных?

Доминирующие топологии моделирования хранилищ данных (Star, Snowflake) разработаны с учетом отношений «один ко многим». Читаемость запросов, производительность и структура сильно ухудшаются, когда сталкиваются с отношением «многие ко многим» в этих схемах моделирования. Каковы некоторые способы...

19
Каковы аргументы в пользу использования процесса ELT над ETL?

Я понял, что моя компания использует процесс ELT (extract-load-transform) вместо использования процесса ETL (extract-transform-load). Каковы различия в этих двух подходах и в каких ситуациях один будет «лучше», чем другой? Было бы здорово, если бы вы могли привести несколько...

18
Кластерные индексы хранилища столбцов и внешние ключи

Я настраиваю производительность хранилища данных, используя индексы. Я довольно новичок в SQL Server 2014. Microsoft описывает следующее: «Мы рассматриваем кластеризованный индекс columnstore как стандарт для хранения больших таблиц фактов хранилища данных и ожидаем, что он будет использоваться в...

17
Стратегии запросов с использованием системных версий SQL Server 2016 с временными таблицами для медленно меняющихся измерений

При использовании системной версии темпоральной таблицы (впервые в SQL Server 2016), как влияют на разработку запросов и производительность, когда эта функция используется для обработки медленно меняющихся измерений в большом реляционном хранилище данных? Например, предположим, что у меня есть...

16
Open Source Business Intelligence / DWH решения [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос так это на тему для базы данных администраторов Stack Exchange. Закрыто 4 года назад . Интересно, этот вопрос еще не задавался. У Google очень мало результатов, которые не...

14
Сравните две похожие базы данных Postgres на предмет различий

Я иногда скачиваю общедоступные наборы данных в виде Postgres dBs. Эти наборы данных обновляются / модифицируются / расширяются со временем хостом хранилища. Есть ли команда или инструмент Postgres (в идеале FOSS), которые могут показать различия между старой и новой базой данных Postgres? (Рабочее...

13
Альтернатива EAV для динамических полей в хранилище данных схемы типа звезда

Мне нужно поддерживать динамические поля и значения в большом хранилище данных для хранения журнала запросов API, в моем случае пользователь должен хранить строку запроса всех запросов API и иметь возможность выполнять запрос к ним в будущем (так что это не просто хранилище, поэтому я не могу...

12
Следует ли отключить «автоматическое обновление статистики» в сценарии с хранилищем данных?

У меня есть хранилище данных 200 ГБ в SQL Server. Я испытываю очень медленное время выполнения некоторых запросов; например 12 часов для простого deleteзапроса с inner join. Проведя некоторые исследования с планами выполнения, я обновил статистику двух таблиц, задействованных в запросе, используя...

12
Обработка часовых поясов в витрине данных / хранилище

Мы начинаем проектировать строительные блоки витрины / хранилища данных, и мы должны иметь возможность поддерживать все часовые пояса (наши клиенты со всего мира). Из чтения дискуссий в Интернете (и в книгах), похоже, общим решением является отдельное измерение даты и времени, а также временная...

12
ETL: извлечение из 200 таблиц - поток данных SSIS или пользовательский T-SQL?

Исходя из моего анализа, полная размерная модель нашего хранилища данных потребует извлечения из более чем 200 исходных таблиц. Некоторые из этих таблиц будут извлечены как часть дополнительной нагрузки, а другие будут полной загрузкой. Отметим, что у нас есть около 225 исходных баз данных с...

11
Ограничить степень параллелизма (DOP) для любого запроса

В Oracle Exadata (11gR2) у нас относительно жесткая база данных. cpu_count - 24 Параметр parallel_server_instances равен 2 Параллельный_поток_пер_про равен 2 Мы отметили, наблюдая в Oracle Enterprise Manager (OEM), что производительность была ужасной из-за запросов, выполняемых последовательно....

11
PostgreSQL для транзакций большого объема и для хранилищ данных

Я новичок в PostgreSQL, я никогда не делал большого развертывания, используя его раньше. Но у меня есть хороший опыт в корпоративных решениях, и я хочу попробовать применить кое-что из того, что я узнал, с помощью PostgreSQL. У меня есть сайт, который рассчитан на большое количество данных и...

11
Сжатие данных SQL Server категорически хорошо для баз данных только для чтения?

В некоторых литературных источниках, посвященных сжатию данных в SQL Server, говорится, что стоимость записи возрастает примерно в четыре раза по сравнению с тем, что обычно требуется. Также представляется, что это является основным недостатком сжатия данных, что подразумевает, что для архивной...

10
База данных емкостью 100 терабайт - оценка ресурсов и времени

Я работаю над подсчетом «оборотной стороны» для настройки базы данных отчетов объемом 100 ТБ. Я ищу мысли от экспертов здесь. Предлагаемая среда: Емкость хранения ~ 100 ТБ Таблицы ~ 200, размеры от 1 ГБ до 5 ТБ. средний размер может лежать между 100 ГБ-200 ГБ ETL - задания могут требовать...

10
Проект хранилища данных для отчетности по данным для многих часовых поясов

Мы пытаемся оптимизировать дизайн хранилища данных, который будет поддерживать отчетность по данным для многих часовых поясов. Например, у нас может быть отчет за месяц активности (миллионы строк), который должен показывать активность, сгруппированную по часу дня. И, конечно, этот час дня должен...

10
Разница между звездной схемой и кубом данных?

Я участвую в новом проекте, где мне нужно создать куб данных из существующей системы реляционных баз данных. Я понял, что существующая система не разработана должным образом, я не уверен, с чего начать. Мой вопрос: В чем разница между схемой Star и кубом данных? С чего мне начать? Из звездной схемы...

10
Проект хранилища данных: объединенное измерение даты и времени в сравнении с отдельными измерениями и часовыми поясами дня и времени

Мы только начинаем проектировать новое хранилище данных и пытаемся спроектировать, как будут работать наши измерения даты и времени. Нам нужно иметь возможность поддерживать несколько часовых поясов (вероятно, по крайней мере GMT, IST, PST и EST). Сначала мы думали, что у нас будет одно общее...

10
Где следует поместить индексы в таблицу измерения времени?

После прочтения Вопросов и Ответов с этого сайта об индексах у меня возник вопрос. Что делать, если использовать таблицу измерения времени с более низким уровнем детализации, являющимся днем. Куда нужно ставить индексы? Рэнди Мелдер в вопросе: что означает «индекс» в РСУБД? сказал : Думайте об...

9
Когда индексы должны быть удалены и воссозданы?

Мы строим хранилище данных, которое изначально будет 1 ТБ и будет расти около 20 гигабайт каждый месяц. Для определенных таблиц мы выполняем ежедневные процессы ETL, а для других - еженедельно / ежемесячно. Нужно ли удалять и воссоздавать индексы при импорте данных в таблицу? Есть ли смысл...

9
Внешние ключи таблицы фактов пустые?

Я новичок в дизайне витрин данных и мне нужно прояснить несколько концепций. Я немного ознакомился с моделированием измерений, где я вижу, что таблицы фактов хранят ссылки на внешние ключи для таблиц измерений. Теперь предположим, что у меня есть таблица измерений phonenumber и таблица измерений...