Я пытаюсь понять, как все компоненты «больших данных» играют вместе в реальном случае, например, hadoop, monogodb / nosql, storm, kafka, ... Я знаю, что это довольно широкий спектр инструментов, используемых для разные типы, но я хотел бы узнать больше об их взаимодействии в приложениях, например, мышление, машинное обучение для приложения, веб-приложение, интернет-магазин.
У меня есть Vistors / сеанс, данные транзакций и т. Д. И храню это; но если я хочу давать рекомендации на лету, я не могу запускать медленные карты / сокращать задания для этого в какой-то большой базе данных, которая у меня есть. Где я могу узнать больше об аспектах инфраструктуры? Я думаю, что я могу использовать большинство инструментов самостоятельно, но объединение их друг с другом кажется искусством само по себе.
Существуют ли общедоступные примеры / варианты использования и т. Д.? Я понимаю, что отдельные конвейеры сильно зависят от варианта использования и пользователя, но только примеры, вероятно, будут очень полезны для меня.
Ответы:
Чтобы понять разнообразие способов интеграции машинного обучения в производственные приложения, я думаю, что было бы полезно взглянуть на проекты с открытым исходным кодом и статьи / публикации в блогах компаний, описывающих их инфраструктуру.
Общая тема этих систем - отделение обучения модели от применения модели. В производственных системах приложение модели должно быть быстрым, порядка 100 с мс, но есть большая свобода в том, как часто нужно обновлять подогнанные параметры модели (или эквивалентные).
Люди используют широкий спектр решений для обучения и развертывания моделей:
Постройте модель, затем экспортируйте и разверните ее с помощью PMML
Постройте модель в MapReduce и получите доступ к значениям в пользовательской системе.
Используйте онлайн-систему, которая позволяет постоянно обновлять параметры модели.
источник
Одно из самых подробных и ясных объяснений настройки сложного аналитического конвейера - от людей из Twitch .
Они дают подробные мотивы каждого из вариантов архитектуры для сбора, транспортировки, координации, обработки, хранения и запроса данных.
Убедительное чтение! Найдите это здесь и здесь .
источник
Airbnb и Etsy недавно опубликовали подробную информацию о своих рабочих процессах.
источник
Глава 1 «Практической науки о данных с R» ( http://www.manning.com/zumel/ ) содержит подробное описание процесса науки о данных, включая командные роли и их связь с конкретными задачами. Книга следует за моделями, изложенными в главе, указывая, на каких этапах / персонале будет выполняться та или иная конкретная задача.
источник