Ciclo de vida do incidente
Todo incidente no Batida progride por quatro status. Cada transicao e registrada na timeline com um timestamp e o usuario que executou a acao.
Fluxo de status
Investigando → Identificado → Monitorando → Resolvido
As transicoes movem apenas para frente. Nao e possivel retornar um incidente a um status anterior. Se um incidente resolvido reaparecer, crie um novo incidente e vincule-o ao original.
Definicoes de status
Investigando
O incidente foi criado e a equipe esta reunindo informacoes. O objetivo e entender o escopo, o impacto e a possivel causa raiz. Durante esta fase, o Comandante deve ser atribuido e os responders iniciais notificados.
Quem pode definir: qualquer membro da equipe (este e o status padrao na criacao).
Identificado
A equipe determinou a causa raiz ou pelo menos identificou o sistema afetado. Uma correcao ou workaround esta sendo desenvolvida. O Comandante deve comunicar uma estimativa de tempo aos stakeholders.
Quem pode definir: Comandante ou qualquer Responder atribuido ao incidente.
Monitorando
A correcao foi aplicada e a equipe esta observando o sistema para confirmar a estabilidade. Nenhum novo problema deve aparecer. Se o problema recorrer, voce pode precisar voltar a investigacao criando um incidente de acompanhamento.
Quem pode definir: Comandante ou qualquer Responder atribuido ao incidente.
Resolvido
O incidente esta totalmente resolvido. Os sistemas estao estaveis, os stakeholders foram informados e o incidente pode ser fechado. Uma vez resolvido, o Batida aciona o fluxo de coleta de feedback.
Quem pode definir: apenas o Comandante. Essa restricao garante que a pessoa que lidera a resposta confirme a resolucao antes do fechamento.
Restricoes baseadas em funcoes
| Status | Comandante | Responder | Membro nao atribuido |
|---|---|---|---|
| Investigando | sim | sim | sim |
| Identificado | sim | sim | nao |
| Monitorando | sim | sim | nao |
| Resolvido | sim | nao | nao |
Regras de auto-transicao
O Batida pode transicionar incidentes automaticamente com base em regras configuradas pelo admin:
- Auto-resolucao -- se nenhuma atividade for registrada por um periodo configuravel apos atingir o status Monitorando, o incidente e automaticamente movido para Resolvido.
- Escalonamento por violacao de SLA -- se um incidente exceder a meta de SLA do status atual, o Comandante e todos os Responders recebem uma notificacao de escalonamento.
Veja tambem
- Niveis de severidade -- metas de SLA por severidade.
- Designando comandantes -- como comandantes sao designados.
- Timeline e historico -- rastreando mudancas de status ao longo do tempo.