Ищете варианты для Пространственного ETL (Извлечение, Преобразование, Загрузка)?

33

Меня интересуют плюсы и минусы различных пространственных инструментов ETL (извлечение, преобразование, загрузка). Если вы использовали предметы, перечисленные здесь (или добавили свои), я прошу вашего мнения и опыта. В частности, я хотел бы увидеть сравнение юзабилити:

Нет необходимости давать обзор ВСЕХ упомянутых программ. Если у вас есть опыт даже с одним из них, это будет очень полезно при принятии решения о том, в каком направлении идти.

Пример: я ищу, чтобы создать функцию преобразования схемы, которая позволит мне выбрать входной слой, создать перевод и вывести на новую, предварительно определенную схему. Оптимально, после создания сценария перевода, я хотел бы иметь интерактивную форму, где я могу «сопоставить» поля в моем входном слое с выходным слоем (т. Е. Выходной слой будет иметь поле под названием «Адрес», как оно называется во входном слое?)

Некоторые из них были упомянуты в разделе «Вопросы и ответы» в разделе Какие инструменты доступны для загрузки ГИС-данных в базу данных?

И вот пара связанных статей, которые я нашел.

RyanDalton
источник

Ответы:

17

Этот вопрос был преобразован в вики сообщества, а вики заблокированы, потому что это пример вопроса, который ищет список ответов и кажется достаточно популярным, чтобы защитить его от закрытия. Его следует рассматривать как особый случай, и его не следует рассматривать как тип вопроса, который предлагается на этом или любом сайте Stack Exchange, но если вы хотите внести в него больше контента, сделайте это, отредактировав этот ответ. ,


Я буду говорить только о том, что я видел в профессиональном контексте. Мой студент работал с предприятием, которому поручено получать, проверять и интегрировать огромные объемы пространственных данных из хорошо известного источника (TeleAtlas) в свою ГИС. Она использовала несколько рабочих процессов с использованием FME, выполняя очень сложные проверки и преобразования на лету, из формата в другой, такие как выбор функций, проверка топологии, удаление дубликатов и т. Д. После этого рабочий процесс мог автоматически обрабатывать входящие наборы данных.

Я был в жюри для отчета о пробации в виве (извините, google traduction "soutenance de rapport de stage"), где студент описал другой рабочий процесс FME, как этот, но на этот раз для проверки региональных наборов данных, отправленных на национальный уровень для интеграции к национальной базе данных рисков. Основное отличие состоит в том, что в этом последнем примере набор данных имел очень разные форматы файлов, растровые и векторные, масштабы и стили.

Наконец, я протестировал Spatial Data Integrator, ETL с открытым исходным кодом, основанный на Talend Open Studio. Функций было много, но меньше, чем у FME, но я думаю, что основные различия заключались в документации и удобстве создания рабочего процесса. Мне часто приходилось модифицировать исходный код Java компонентов рабочего процесса. Но это была более ранняя версия SDI, и недостатки, которые я здесь описываю, несколько обычны для проектов с открытым исходным кодом в их начале, и мы не можем сравнивать на том же уровне проприетарное хорошо отточенное программное обеспечение и бесплатные молодые конкуренты с открытым исходным кодом.

PolyGeo
источник
24

Для недавнего проекта, работающего с несколькими ГБ пространственных данных, я начал загрузку / репроекцию данных с помощью FME. Это сработало хорошо, но есть кривая обучения.

К концу проекта я использовал скрипты Python для автоматизации процессов переобучения. В FME можно писать сценарии, но если у вас есть основы Python, зачем усложнять ситуацию дальше? Python дает вам полную гибкость, и с каждым написанным скриптом импорта ваши навыки Python улучшаются.

Я нашел следующие пакеты Python бесценными при работе с преобразованиями данных:

  • PyProj
  • GeoPy
  • стройный
  • xlrd для импорта данных из таблиц Excel
  • pyobdc для подключения к базам данных
  • SQLAlchemy для запуска операторов SQL и работы с базами данных

Если у вас есть опыт разработки / программирования, я бы порекомендовал использовать Python, если вы предпочитаете работать с графическим интерфейсом (который также может генерировать красивые изображения для документации), я бы порекомендовал FME.

география
источник
11

Я люблю open source, но FME легко побеждает против ETL open source, насколько я могу судить. Это на самом деле довольно дешево для обслуживания и поддержки (по крайней мере, по сравнению с большинством других корпоративных решений, которые у нас есть для вещей).

Если вы ищете переводы между форматами, тогда OGR может это сделать (с некоторыми изменениями в GDAL ). Конечно, это командная строка .

Для визуального моделирования помимо тех, которые перечислены в комментарии «возможный дубликат», они работают над конструктором моделей QGIS / SEXTANTE; доказательство концепции видео: https://www.youtube.com/watch?v=LTUu-I2ouqU

(Нет, я не работаю в Safe, я просто относительно счастливый клиент).

ГИС-Jonathan
источник
ссылка на видео не работает. Ты можешь починить это?
GeoStoneMarten
6

Большинство простых операций могут быть выполнены этими утилитами с открытым исходным кодом

  • ogr2ogr для вектора
  • gdal_translate и gdalwarp для растра

Получите FWtools http://fwtools.maptools.org/ и попробуйте.

spatialthoughts
источник
6

Около года назад я провел сравнение различных инструментов, которые также содержат большинство параметров, упомянутых в этой теме.

В качестве более прямого ответа я часто использую FME из-за его универсальности. Однако, когда я работаю со сложными структурами данных, такими как CityGML, INSPIRE GML или более крупные модели баз данных, я использую HALE , приложение с открытым исходным кодом, разработанное для ETL и, в частности, гармонизации.

введите описание изображения здесь

В настоящее время (начиная с версии 2.9.0) он сравнивается с FME (SP1 2014) следующим образом:

  • HALE имеет меньшее количество форматов (HALE: 20, FME 200) и преобразователей (HALE: 30+, FME: более 400), но очень хорошо поддерживает все диалекты XML / GML
  • HALE просматривает результаты преобразования в интерактивном режиме на карте и в табличных представлениях, а также проверяет вывод напрямую
  • HALE, как правило, намного быстрее, поскольку поддерживается локальный контекст для каждого атрибута, что позволяет сэкономить, например, много объектов FeatureMerger.
  • HALE с открытым исходным кодом и используется в производстве с 2010 года
  • HALE использует декларативный интерфейс отображения, что приводит к меньшему количеству требуемых пользовательских данных по сравнению с процедурными подходами

Обратите внимание, что я был в команде HALE уже несколько лет.

tr_xsdi
источник
Как вы думаете, это складывается сегодня против FME? Специально для веб-и GeoRSS потоков данных?
Dr.YSG
@ Dr.YSG В 2015 году компания «Уотрансформ ГмбХ» взяла на себя заботу об охране здоровья, поэтому за ее разработкой стоит специальная команда. За последние четыре года произошло значительное развитие. Изменения описаны в примечаниях к выпуску GitHub. Он поддерживает обработку данных JSON / GeoJSON. GeoRSS - это простой формат XML, в котором повторно используются некоторые части GML, поэтому он также полностью поддерживается. Чтобы автоматически обрабатывать потоки GeoRSS, вам нужно изучить hale-cli (интерфейс командной строки и другие API).
tr_xsdi
5

Если вы посмотрите на двойную ссылку blah238s, вы найдете больше информации. Я бы сказал, что Talend Open Studio и Pentaho GeoKettle - самые выдающиеся решения с открытым исходным кодом, которые можно выбрать. Насколько я понял, из этих двух Talend больше, чем просто ETL и GeoKettle, немного проще в использовании.

Мой муниципалитет собирается дать GeoKettle возможность написать диалект GML, составленный шведской ассоциацией местных властей и регионов (SALAR), и нам нужен этот формат для доставки геоданных для различных коммерческих интересов.

Я считаю, что GeoKettle поддерживает OGR / GDAL начиная с версии 2.0.

FishHead
источник
5

FME, вероятно, лучший продукт для использования в этом пространстве. После этого это GDAL / OGR. Еще одним продуктом с открытым исходным кодом в этой области является geokettle - http://www.spatialytics.org/projects/geokettle/, хотя я никогда не использовал его в гневе (достаточно повезло, что я упомянул оба других продукта).

Если ни один из этих общих параметров не работает, вы, вероятно, захотите использовать конкретный инструмент преобразования.

Роб Бут
источник
3

Неукоснительно использовал Geokettle для небольшого проекта с высокой степенью обучения, если только вы не привыкли к пользовательскому интерфейсу Eclipse ... Действительно мощным, поскольку он скомпилирован с GDAL1.10, поддерживает все типы гео ... Что мне понравилось, так это его поддержка сохраненных данных и данных через сервисы ... Я использовал его, чтобы воссоздать и синхронизировать наборы данных сервера ArcGIS на локальном экземпляре postgis через ESRI json в GeoJSON ... Рабочий процесс может встроить условия и проверку, настроив его для запроса # объекта и на основе этого компилировать предварительно определенный CSV чтобы выполнить итерацию почтового запроса для 500 объектов одновременно, в зависимости от первого запроса удалось объединить все запросы в один файл geojson, запустить ogr2ogr, чтобы загрузить в postgis даже сценарий postgis для запуска вакуума и индексирования с ним ... вентилятор

Вы можете запустить его и отобразить рабочий процесс в графическом интерфейсе рабочего стола, а также использовать инструменты сервера Pentahos, чтобы настроить его на Hadoop и запустить его как скрипт или задание cron.

user33290
источник
3

QGIS (по крайней мере, начиная с текущей версии 2.6) теперь также имеет встроенный построитель моделей. С помощью этого набора инструментов вы можете получить доступ к сотням алгоритмов (GDAL, GRASS, SAGA, vectortools и т. Д.). Вы также можете добавить свой собственный скрипт.

Я должен признать, что я не использовал это широко, но если бы я искал модельера, я бы посчитал это достойным изучения.

заморозка
источник
0

[ПРЕДУПРЕЖДЕНИЕ: бесплатная реклама продукта, с которым я связан]

Мы работаем над инструментом для создания ETL. По своему вкусу он похож на FME, но предназначен для более простых задач и требует меньшего опыта в использовании. Некоторые подробности можно найти по адресу https://www.geoactive.it, просто ищите информацию о Data Dragon. Это приложение использует GDAL / OGR в бэкэнде, и мы добавляем любые дополнения в GDAL / OGR.

Коммерческое использование требует его приобретения, но у нас есть академические лицензии, доступные бесплатно, поэтому, если вы хотите использовать его для изучения, отправьте мне сообщение, и я предоставлю вам более подробную информацию.

Это на ранней стадии релиза, так что все еще есть небольшие ошибки, поэтому, пожалуйста, будьте осторожны с нами.

Darkcylde
источник