Система управления инцидентами

Кейс: на предприятии используется система мониторинга Zabbix, информирующая об авариях в инфраструктуре через email. Действующая схема не удовлетворяет потребностям компании, так как:
а) не формирует отчетность по устраненным авариям;
б) имеет сложности коммуникации внутри группы ответственных лиц;
в) игнорирует мелкие проблемы, которые перерастают в крупные аварии.

Решение: разработка системы управления инцидентами, интегрированной с Zabbix и мессенджером Slack.

Стек технологий: PHP, MySQL, REST

Качественный эффект:
а) уменьшение крупных аварий в инфраструктуре предприятия в связи с превентивным устранением некритичных проблем;
б) увеличение мотивации сотрудников за счет формирования отчетности по инцидентам.

Краткое описание:

При срабатывании триггера в системе мониторинга Zabbix в чат Slack приходит соответствующее уведомление:

внешний вид уведомления в Slack

Ответственный за проблемный узел инфраструктуры сотрудник, нажав кнопку “В работу”, дает понять остальным, что аварию уже устраняют.

внешний вид проблемы, над которой работают

Факт устранения проблемы определяет внешняя система мониторинга, в данном случае Zabbix.

внешний вид устраненной проблемы

Помимо этого возможно принудительно закрыть событие из административной части системы управления инцидентами.

просмотр события из интерфейса администратора

Из чата можно выполнять команды в инфраструктуре предприятия:

внешний вид диалогового окна для выполнения удаленной команды

Все действия логируются как в чате, так и в административном интерфейсе:

внешний вид журнала действий

Здесь же, можно отредактировать список возможных действий в инфраструктуре из чата:

редактирование возможных действий

В административном интерфейсе можно увидеть общую картину по инцидентам:

статистика по инцидентам

Просмотр инцидентов в табличном виде предоставляет удобную фильтрацию:

просмотр инцидентов в табличном виде

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *