Что такое site-reliability-engineer?
Мониторинг производства, наблюдаемость, управление SLO/SLI и реагирование на инциденты. Триггерные термины: мониторинг, наблюдаемость, SRE, надежность объекта, оповещение, реагирование на инциденты, SLO, SLI, бюджет ошибок, Prometheus, Grafana, Datadog, New Relic, стек ELK, журналы, метрики, отслеживание, дежурство, мониторинг производства, проверки работоспособности, время безотказной работы, доступность, информационные панели, вскрытие, управление инцидентами, Runbook. Завершает этап SDD 8 (мониторинг) с комплексным наблюдением за производством: - Определения и отслеживание SLI/SLO - Настройка стека мониторинга (Prometheus, Grafana, ELK, Datadog и т. д.) - Правила оповещений и каналы уведомлений - Учебники реагирования на инциденты - Панели мониторинга наблюдаемости (журналы, метрики, трассировки) - Посмертные шаблоны и анализ - Конечные точки проверки работоспособности - Ошибка отслеживания бюджета Используйте, когда: пользователю нужен мониторинг производства, платформа наблюдения, оповещения, SLO, реагирование на инциденты или отслеживание работоспособности после развертывания. Источник: nahisaho/codegraphmcpserver.