Нужны, например, инфраструктурные стеки / рабочие процессы / конвейеры

14

Я пытаюсь понять, как все компоненты «больших данных» играют вместе в реальном случае, например, hadoop, monogodb / nosql, storm, kafka, ... Я знаю, что это довольно широкий спектр инструментов, используемых для разные типы, но я хотел бы узнать больше об их взаимодействии в приложениях, например, мышление, машинное обучение для приложения, веб-приложение, интернет-магазин.

У меня есть Vistors / сеанс, данные транзакций и т. Д. И храню это; но если я хочу давать рекомендации на лету, я не могу запускать медленные карты / сокращать задания для этого в какой-то большой базе данных, которая у меня есть. Где я могу узнать больше об аспектах инфраструктуры? Я думаю, что я могу использовать большинство инструментов самостоятельно, но объединение их друг с другом кажется искусством само по себе.

Существуют ли общедоступные примеры / варианты использования и т. Д.? Я понимаю, что отдельные конвейеры сильно зависят от варианта использования и пользователя, но только примеры, вероятно, будут очень полезны для меня.

chrshmmmr
источник
Вы делали какие-либо исследования по этому поводу? Есть много видео на YouTube и презентации на слайдах, описывающие различные архитектуры
Stanpol
1
Привет, Станпол, спасибо за твой ответ - я провел несколько начальных поисков и действительно не нашел ничего, кроме материалов AWS и cloudera - возможно, если ты сможешь дать мне несколько поисковых терминов, которые обещают, я буду рад получить их оттуда.
chrshmmmr

Ответы:

14

Чтобы понять разнообразие способов интеграции машинного обучения в производственные приложения, я думаю, что было бы полезно взглянуть на проекты с открытым исходным кодом и статьи / публикации в блогах компаний, описывающих их инфраструктуру.

Общая тема этих систем - отделение обучения модели от применения модели. В производственных системах приложение модели должно быть быстрым, порядка 100 с мс, но есть большая свобода в том, как часто нужно обновлять подогнанные параметры модели (или эквивалентные).

Люди используют широкий спектр решений для обучения и развертывания моделей:

j_houg
источник
7

Одно из самых подробных и ясных объяснений настройки сложного аналитического конвейера - от людей из Twitch .
Они дают подробные мотивы каждого из вариантов архитектуры для сбора, транспортировки, координации, обработки, хранения и запроса данных.
Убедительное чтение! Найдите это здесь и здесь .

tchakravarty
источник
Это очень круто, именно то, что я искал! Большое спасибо :)
chrshmmmr
@chrshmmmr Пожалуйста. Не забудьте поднять / пометить как принято, если это помогло!
Чакраварти
3
Эти ссылки кажутся действительно очень полезными, но опять же, они являются ссылками, и я думаю, что мы должны стремиться поддерживать ответы независимо от стабильности внешних источников. Таким образом, было бы неплохо, если бы вы могли потратить две-три минуты, чтобы добавить, например, диаграмму из этой ссылки , опубликовав ее вместе с кратким описанием. Что-то в строках: «Например, это рабочий процесс системы ... <img>. Дополнительную информацию можно найти в <link>.»
Рубенс
1
@Rubens Я предложу редактирование чуть позже. fgnu: так и будет, просто нужно немного больше репутации, чтобы на самом деле выслушать ответы, но я, безусловно, буду
благодарен за
@Rubens Это было бы не более, чем воспроизведение информации по ссылке. Я бы, если бы что-то почувствовал, добавил бы к уже приведенному там объяснению.
Чакраварти
3

Airbnb и Etsy недавно опубликовали подробную информацию о своих рабочих процессах.

тройка
источник
1

Глава 1 «Практической науки о данных с R» ( http://www.manning.com/zumel/ ) содержит подробное описание процесса науки о данных, включая командные роли и их связь с конкретными задачами. Книга следует за моделями, изложенными в главе, указывая, на каких этапах / персонале будет выполняться та или иная конкретная задача.

d8aninja
источник