Нужны, например, инфраструктурные стеки / рабочие процессы / конвейеры

14

Я пытаюсь понять, как все компоненты «больших данных» играют вместе в реальном случае, например, hadoop, monogodb / nosql, storm, kafka, ... Я знаю, что это довольно широкий спектр инструментов, используемых для разные типы, но я хотел бы узнать больше об их взаимодействии в приложениях, например, мышление, машинное обучение для приложения, веб-приложение, интернет-магазин.

У меня есть Vistors / сеанс, данные транзакций и т. Д. И храню это; но если я хочу давать рекомендации на лету, я не могу запускать медленные карты / сокращать задания для этого в какой-то большой базе данных, которая у меня есть. Где я могу узнать больше об аспектах инфраструктуры? Я думаю, что я могу использовать большинство инструментов самостоятельно, но объединение их друг с другом кажется искусством само по себе.

Существуют ли общедоступные примеры / варианты использования и т. Д.? Я понимаю, что отдельные конвейеры сильно зависят от варианта использования и пользователя, но только примеры, вероятно, будут очень полезны для меня.

machine-learning bigdata efficiency scalability distributed chrshmmmr
источник

Вы делали какие-либо исследования по этому поводу? Есть много видео на YouTube и презентации на слайдах, описывающие различные архитектуры

Stanpol

1

Привет, Станпол, спасибо за твой ответ - я провел несколько начальных поисков и действительно не нашел ничего, кроме материалов AWS и cloudera - возможно, если ты сможешь дать мне несколько поисковых терминов, которые обещают, я буду рад получить их оттуда.

chrshmmmr

14

Чтобы понять разнообразие способов интеграции машинного обучения в производственные приложения, я думаю, что было бы полезно взглянуть на проекты с открытым исходным кодом и статьи / публикации в блогах компаний, описывающих их инфраструктуру.

Общая тема этих систем - отделение обучения модели от применения модели. В производственных системах приложение модели должно быть быстрым, порядка 100 с мс, но есть большая свобода в том, как часто нужно обновлять подогнанные параметры модели (или эквивалентные).

Люди используют широкий спектр решений для обучения и развертывания моделей:

Постройте модель, затем экспортируйте и разверните ее с помощью PMML
- AirBnB описывает обучение модели на R / Python и развертывание моделей PMML через OpenScoring.
- Шаблон - это проект, связанный с каскадированием, который может использовать PMML и развертывать прогностические модели.
Постройте модель в MapReduce и получите доступ к значениям в пользовательской системе.
- Conjecture - это проект с открытым исходным кодом от Etsy, который позволяет проводить обучение модели с использованием Scalding , более простой в использовании оболочки Scala вокруг MapReduce и развертывать через Php.
- Kiji - это проект с открытым исходным кодом от WibiData, который обеспечивает оценку моделей в режиме реального времени (приложение), а также функциональность для сохранения пользовательских данных и моделей обучения на этих данных с помощью Scalding.
Используйте онлайн-систему, которая позволяет постоянно обновлять параметры модели.
- Google выпустил отличную статью о совместной фильтрации в Интернете, которую они внедрили, чтобы справиться с рекомендациями в Новостях Google.

j_houg
источник

7

Одно из самых подробных и ясных объяснений настройки сложного аналитического конвейера - от людей из Twitch .
Они дают подробные мотивы каждого из вариантов архитектуры для сбора, транспортировки, координации, обработки, хранения и запроса данных.
Убедительное чтение! Найдите это здесь и здесь .

tchakravarty
источник

Это очень круто, именно то, что я искал! Большое спасибо :)

chrshmmmr

@chrshmmmr Пожалуйста. Не забудьте поднять / пометить как принято, если это помогло!

Чакраварти

3

Эти ссылки кажутся действительно очень полезными, но опять же, они являются ссылками, и я думаю, что мы должны стремиться поддерживать ответы независимо от стабильности внешних источников. Таким образом, было бы неплохо, если бы вы могли потратить две-три минуты, чтобы добавить, например, диаграмму из этой ссылки , опубликовав ее вместе с кратким описанием. Что-то в строках: «Например, это рабочий процесс системы ... <img>. Дополнительную информацию можно найти в <link>.»

Рубенс

1

@Rubens Я предложу редактирование чуть позже. fgnu: так и будет, просто нужно немного больше репутации, чтобы на самом деле выслушать ответы, но я, безусловно, буду

благодарен за

@Rubens Это было бы не более, чем воспроизведение информации по ссылке. Я бы, если бы что-то почувствовал, добавил бы к уже приведенному там объяснению.

Чакраварти

3

Airbnb и Etsy недавно опубликовали подробную информацию о своих рабочих процессах.

тройка
источник

1

Глава 1 «Практической науки о данных с R» ( http://www.manning.com/zumel/ ) содержит подробное описание процесса науки о данных, включая командные роли и их связь с конкретными задачами. Книга следует за моделями, изложенными в главе, указывая, на каких этапах / персонале будет выполняться та или иная конкретная задача.

d8aninja
источник

Нужны, например, инфраструктурные стеки / рабочие процессы / конвейеры

Ответы: