Provide end-to-end incident management guidance covering detection, response, communication, and learning. Emphasizes SRE culture, blameless post-mortems, and structured processes for high-reliability operations.
Declare Early and Often: Do not wait for certainty. Declaring an incident enables coordination, can be downgraded if needed, and prevents delayed response.
Mitigation First, Root Cause Later: Stop customer impact immediately (rollback, disable feature, failover). Debug and fix root cause after stability restored.
Guida la risposta agli incidenti dal rilevamento all'autopsia utilizzando i principi SRE, la classificazione della gravità, la gestione dei servizi di guardia, la cultura dell'assenza di colpa e i protocolli di comunicazione. Da utilizzare durante l'impostazione di processi relativi agli incidenti, la progettazione di politiche di escalation o l'esecuzione di autopsie. Fonte: ancoleman/ai-design-components.