Вопросы с тегом «etl»

38
Регулярный ВАКУУМНЫЙ АНАЛИЗ все еще рекомендуется под 9.1?

Я использую PostgreSQL 9.1 в Ubuntu. Запланировано ли это по- VACUUM ANALYZEпрежнему, или этого достаточно для того, чтобы позаботиться обо всех потребностях? Если ответ «это зависит», то: У меня большая база данных (размер сжатого дампа 30 ГиБ, каталог данных 200 ГиБ) Я делаю ETL в базу данных,...

29
Что такое масштабируемый способ имитации хэш-битов с помощью скалярной функции SQL CLR?

В рамках нашего процесса ETL мы сравниваем строки от подготовки к базе данных отчетов, чтобы выяснить, действительно ли какой-либо из столбцов изменился с момента последней загрузки данных. Сравнение основано на уникальном ключе таблицы и некотором хешировании всех остальных столбцов. В настоящее...

28
Как запустить большой сценарий со многими вставками без исчерпания памяти?

Вопрос: У меня есть скрипт с около 45 тысяч вставок из отборных высказываний. Когда я пытаюсь запустить его, я получаю сообщение об ошибке, в котором говорится, что у меня недостаточно памяти. Как мне запустить этот скрипт? Контекст: Добавлены некоторые новые поля данных, чтобы приложение работало...

26
Есть ли открытый исходный код / ​​бесплатный ETL? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос так это на тему для базы данных администраторов Stack Exchange. Закрыто 4 года назад . Я использовал интеграцию данных Pentaho еще до того, как Pentaho купил ее и назвал так. У...

19
Каковы аргументы в пользу использования процесса ELT над ETL?

Я понял, что моя компания использует процесс ELT (extract-load-transform) вместо использования процесса ETL (extract-transform-load). Каковы различия в этих двух подходах и в каких ситуациях один будет «лучше», чем другой? Было бы здорово, если бы вы могли привести несколько...

12
ETL: извлечение из 200 таблиц - поток данных SSIS или пользовательский T-SQL?

Исходя из моего анализа, полная размерная модель нашего хранилища данных потребует извлечения из более чем 200 исходных таблиц. Некоторые из этих таблиц будут извлечены как часть дополнительной нагрузки, а другие будут полной загрузкой. Отметим, что у нас есть около 225 исходных баз данных с...

12
Быстрый способ проверить две таблицы друг против друга

Мы делаем процесс ETL. Когда все сказано и сделано, есть несколько таблиц, которые должны быть идентичными. Какой самый быстрый способ проверить, что эти таблицы (на двух разных серверах) на самом деле идентичны. Я говорю о схеме и данных. Могу ли я сделать хеш для таблицы сам по себе, как если бы...

11
PostgreSQL для транзакций большого объема и для хранилищ данных

Я новичок в PostgreSQL, я никогда не делал большого развертывания, используя его раньше. Но у меня есть хороший опыт в корпоративных решениях, и я хочу попробовать применить кое-что из того, что я узнал, с помощью PostgreSQL. У меня есть сайт, который рассчитан на большое количество данных и...

10
Существует ли стандартный язык / интерфейс для программного ETL в SQL Server?

В настоящее время я нахожусь в процессе создания ETL для нашего хранилища данных. Мы используем SSIS 2008, но у нас возникают проблемы, самая большая из которых - это проблема повторного использования компонентов. У нас есть отдельные пакеты для каждой таблицы, и каждый пакет принимает в качестве...

9
Пространственное моделирование и ETL в Redshift

Я исследовал базу данных Amazon Redshift как возможную будущую замену нашему хранилищу данных. Мой опыт всегда был в использовании многомерного моделирования и методов Ральфа Кимбалла, поэтому было немного странно видеть, что Redshift не поддерживает такие функции, как последовательный тип данных...