Пример больших данных или пример использования

13

Я читал много блогов \ статей о том, как разные типы отраслей используют Big Data Analytic. Но в большинстве этих статей не упоминается

  1. Какие данные эти компании использовали. Каков был размер данных
  2. Какие инструменты технологий они использовали для обработки данных
  3. В чем заключалась проблема, с которой они столкнулись, и как понимание, которое они получили, помогло им решить проблему.
  4. Как они выбрали инструмент \ технологию, чтобы удовлетворить их потребности.
  5. Какую модель они определили по данным и какие шаблоны они искали по данным.

Интересно, может ли кто-нибудь дать мне ответ на все эти вопросы или ссылку, которая хотя бы ответит на некоторые из вопросов. Я ищу пример из реального мира.

Было бы здорово, если бы кто-то рассказал, как финансовая индустрия использует Big Data Analytic.

Brown_Dynamite
источник

Ответы:

14

Новостные агентства, как правило, используют «большие данные» довольно свободно. Продавцы обычно предоставляют тематические исследования, касающиеся их конкретных продуктов. Существует не так уж много для реализации с открытым исходным кодом, но они упоминаются. Например, Apache не собирается тратить много времени на создание тематического исследования для hadoop, но, вероятно, такие производители, как Cloudera и Hortonworks, будут.

Вот пример конкретного случая от Cloudera в финансовом секторе.

Цитирую исследование:

Один крупный глобальный конгломерат финансовых услуг использует Cloudera и Datameer, чтобы помочь идентифицировать мошенническую торговую деятельность. Команды в группе управления активами фирмы проводят специальный анализ ежедневных потоков информации о цене, положении и заказе. Наличие специального анализа всех подробных данных позволяет группе обнаруживать аномалии в определенных классах активов и выявлять подозрительное поведение. Ранее пользователи полагались исключительно на инструменты для работы с электронными таблицами. Теперь, благодаря Datameer и Cloudera, пользователи имеют мощную платформу, которая позволяет им быстрее просеивать больше данных и предотвращать потенциальные потери до их начала.

,

Ведущий розничный банк использует Cloudera и Datameer для проверки точности и качества данных в соответствии с требованиями закона Додда-Франка и других нормативных актов. Интегрируя данные по кредитам и филиалам, а также данные по управлению активами, инициатива банка по обеспечению качества данных отвечает за обеспечение точности каждой записи. Процесс включает в себя более 50 проверок данных и проверку качества данных. Результаты этих проверок изменяются с течением времени, чтобы гарантировать, что допуски для повреждения данных и областей данных не меняются отрицательно и что профили рисков, сообщаемые инвесторам и регулирующим органам, являются разумными и соответствуют нормативным требованиям. Результаты сообщаются через информационную панель по качеству данных директору по рискам и финансовому директору,

Я не видел никаких других связанных с финансами исследований в Cloudera, но я не очень старался. Вы можете посмотреть их библиотеку здесь.

Кроме того, у Hortonworks есть тематическое исследование по торговым стратегиям, где они увидели, что время на разработку стратегии с использованием K-средних, Hadoop и R. сократилось на 20%.

Каждый цвет обозначает группу стратегий с одинаковой вероятностью прибылей и убытков.

как торговая система была улучшена с помощью Hadoop (Hortonworks Data Platform) и алгоритма k-средних

Они не отвечают на все ваши вопросы. Я почти уверен, что оба эти исследования охватили большинство из них. Я не вижу ничего о выборе инструмента конкретно. Я полагаю, что торговые представители имели непосредственное отношение к получению всего продукта в продаже, но сами ученые, работающие с данными, использовали инструменты, которые им наиболее удобны. Я не очень разбираюсь в этой области большого пространства данных.

Стив Каллестад
источник
1
Спасибо. Это очень полезно. Я знаю, это ошибка, и нет правильного ответа. Мне очень интересно узнать, как выбрать инструменты и технологии для работы с большими данными в соответствии с их потребностями. Я не отмечаю это как правильный ответ на данный момент, но это, безусловно, заслуживает большого количества голосов UP. Приветствия :)
Brown_Dynamite
6

Financial Services - большой пользователь Big Data и новатор. Одним из примеров является торговля ипотечными облигациями. Чтобы ответить на ваши вопросы для этого:

Какие данные эти компании использовали. Каков был размер данных?

  • Длинные истории каждой ипотеки выдаются за последние много лет, а выплаты по месяцам против них. (Миллиарды строк)
  • Длинные истории кредитных историй. (Миллиарды строк)
  • Индексы цен на жилье. (Не такой большой)

Какие инструменты технологий они использовали для обработки данных?

Различается. Некоторые используют собственные решения, основанные на базах данных, таких как Netezza или Teradata. Другие получают доступ к данным через системы, предоставляемые поставщиками данных. (Corelogic, Experian и т. Д.) Некоторые банки используют технологии колоночных баз данных, такие как KDB или 1010data.

В чем заключалась проблема, с которой они столкнулись, и как понимание, которое они получили, помогло им решить проблему.

Ключевой вопрос заключается в определении того, когда ипотечные облигации (ипотечные ценные бумаги) будут досрочно погашаться или не будут выполняться Это особенно важно для облигаций, в которых отсутствует государственная гарантия. Копаясь в истории платежей, кредитных файлах и понимая текущую стоимость дома, можно предсказать вероятность дефолта. Добавление модели процентной ставки и модели предоплаты также помогает прогнозировать вероятность предоплаты.

Как они выбрали инструмент \ технологию, чтобы удовлетворить их потребности.

Если проект управляется внутренними ИТ-отделами, обычно он базируется на крупных поставщиках баз данных, таких как Oracle, Teradata или Netezza. Если это обусловлено квантами, то они с большей вероятностью напрямую обращаются к поставщику данных или к сторонней системе «Все в».

Какую модель они определили по данным и какие шаблоны они искали по данным.

100,000,000беяNграммвесорTчасTчасaTaмоUNT,орasLяTTLеas

MathAttack
источник
Вы видели случаи, когда для моделирования предоплаты используются методы машинного обучения? Т.е. нейронные сети, случайный лес, GBM?
Джош
5

Kaggle имеет краткое изложение приложений:

Revolution Analytics опубликовала множество общих тематических исследований, таблиц данных и технических документов:

Для приложений в науке и технике, вы можете обратиться к тематическим исследованиям Nutonian :

Analyx рассказал потенциальным клиентам о приложениях в коммерции:

Financial Times опубликовала сборник рассказов о бизнес - приложениях больших данных:

McKinsey изложил заявки еще в 2011 году:

Другие консалтинговые фирмы сделали аналогичные отчеты.

Gartner создал Hype Cycle для больших данных:

введите описание изображения здесь

Не говоря уже о тематических исследованиях и официальных документах других компаний, которые хотят продвигать свою продукцию.

Антон Тарасенко
источник
1

Взгляните на бесплатные отчеты о данных O'Reilly . Вы можете найти отчеты по банковскому делу и Fintech, спорт, мода, музыка, здоровье, нефть и газ и так далее.

Имейте в виду, что упомянутый ранее отчет McKinsey является классическим и обязательным к прочтению.

Hamideh
источник