Отслеживание исключений и ошибок в производственных устройствах IoT?

Как компании отслеживают ошибки на устройствах IoT, шлюзах и платформах в настоящее время? Моя компания использует papertrail для агрегирования журналов со всех устройств, однако это часто приводит к тому, что мы сталкиваемся с несколькими системами, когда в работе возникает ошибка.

Я ищу способ уменьшить нашу «временную причину» при разрешении исключений, которые могли быть сгенерированы в одном месте (например, на платформе IoT), но возникли в результате проблемы в другом месте в стек - например, ошибка данных с периферийного устройства.

С точки зрения того, что я нашел в этом пространстве, Sentry и Rollbar хороши для отслеживания исключений на серверах или в приложениях, но не предоставляют средства для отслеживания каскадных ошибок, как обсуждалось в предыдущем абзаце.

Существуют ли системы, позволяющие сделать это лучше, чем регистрация текста? Я специально искал возможность использовать события в виде хлебных крошек, которые вы получаете от Sentry, но с отслеживанием по распределенной системе.

remote-access product-design hookd
источник

Распределенная трассировка

Идея, лежащая в основе любой полезной распределенной трассировки, наиболее известна, описанная в этом техническом документе Google об их решении Dapper . Обратите внимание, что я не говорю, что они это изобрели. По сути, он работает так же для IoT, просто начните трассировку на границе, либо вашего бэкэнда, либо даже на конечных устройствах.

Хотя технический документ Google более или менее ориентирован на серверные системы, концепция может быть легко адаптирована для включения конечных устройств. Магию использования идентификаторов трассировки и span-идентификаторов для отслеживания всей вашей информации в системах можно увидеть в каждой визуализации, которую Netflix делает через Vizceral, которую они недавно открыли. То, что в блоге визуализируется в разделе « Региональное представление», полностью основано на анализе журналов в реальном времени, когда вызовы сопоставляются с помощью идентификаторов трассировки. Обратите внимание, что, как Google упоминает в статье «Dapper», Netflix имеет выборку вызовов, связывающих их API. Google упомянул 1: 1000 в газете, которой несколько лет. По-видимому, Netflix уже достиг 1: 1 миллиона по некоторым типам запросов.

Я не знаю о вашей системе, но очень вероятно, что вы можете начать с фактического 100% отслеживания.

В любом случае, если вы можете сопоставить трассировку с самого начала с вашими устройствами IoT или даже создать идентификаторы трассировки на ваших конечных точках, во-первых, ничто не мешает вам адаптировать эти идеи таким образом, чтобы они включали ваши периферийные устройства.

Хельмар
источник

Спасибо Хелмар, я хотел бы упомянуть Даппера в своем первоначальном вопросе, потому что я уже читал об этом! Конечно, есть возможность использовать это, но также надеялся увидеть, есть ли другие существующие решения, которые уже используются?

зацепил

Отслеживание исключений и ошибок в производственных устройствах IoT?

Ответы:

Распределенная трассировка