Provide end-to-end incident management guidance covering detection, response, communication, and learning. Emphasizes SRE culture, blameless post-mortems, and structured processes for high-reliability operations.
Declare Early and Often: Do not wait for certainty. Declaring an incident enables coordination, can be downgraded if needed, and prevents delayed response.
Mitigation First, Root Cause Later: Stop customer impact immediately (rollback, disable feature, failover). Debug and fix root cause after stability restored.
Руководит реагированием на инциденты от обнаружения до вскрытия, используя принципы SRE, классификацию серьезности, управление по вызову, безупречную культуру и протоколы связи. Используйте при настройке процессов обработки инцидентов, разработке политик эскалации или проведении анализа. Источник: ancoleman/ai-design-components.