Niveis de severidade
Todo incidente no Batida recebe um nivel de severidade de P1 a P4. A severidade define metas de SLA, roteamento de notificacoes e politicas de escalonamento. Na duvida, comece com uma severidade mais alta e rebaixe conforme reunir mais informacoes.
Definicoes de severidade
P1 Critico -- Uma queda total de servico ou falha catastrofica afetando todos os usuarios. Perda de receita esta ativa e significativa. Nao existe workaround. Visibilidade executiva e necessaria imediatamente.
Exemplos: processamento de pagamentos fora do ar, plataforma inteira inacessivel, vazamento de dados confirmado.
Metas de SLA:
| Metrica | Meta |
|---|---|
| Resposta inicial | 5 min |
| Comandante atribuido | 10 min |
| Tempo para Identificar | 30 min |
| Tempo para Resolver | 2 horas |
P2 Alto -- Uma funcionalidade principal esta degradada ou indisponivel para uma parcela significativa de usuarios. Workarounds podem existir mas sao impraticaveis em escala. O impacto no negocio e material.
Exemplos: latencia de API acima dos limites aceitaveis, funcionalidade principal quebrada para uma regiao especifica, falhas de autenticacao para um subconjunto de usuarios.
Metas de SLA:
| Metrica | Meta |
|---|---|
| Resposta inicial | 15 min |
| Comandante atribuido | 30 min |
| Tempo para Identificar | 1 hora |
| Tempo para Resolver | 4 horas |
P3 Medio -- Uma funcionalidade nao critica esta prejudicada. A maioria dos usuarios nao e afetada. Um workaround razoavel existe. O impacto no negocio e limitado.
Exemplos: dashboard de relatorios lento, integracao com servico de terceiros falhando intermitentemente, jobs em background nao criticos atrasados.
Metas de SLA:
| Metrica | Meta |
|---|---|
| Resposta inicial | 1 hora |
| Comandante atribuido | 2 horas |
| Tempo para Identificar | 4 horas |
| Tempo para Resolver | 24 horas |
P4 Baixo -- Problemas menores com impacto minimo no usuario. Frequentemente descobertos internamente antes que os usuarios percebam. Sem impacto imediato no negocio.
Exemplos: bugs cosmeticos na interface, lacunas menores em logs, problemas nao urgentes em ferramentas internas.
Metas de SLA:
| Metrica | Meta |
|---|---|
| Resposta inicial | 4 horas |
| Comandante atribuido | 8 horas |
| Tempo para Identificar | 1 dia |
| Tempo para Resolver | 3 dias |
Alterando a severidade
Qualquer membro da equipe pode propor uma mudanca de severidade. Para incidentes P1, apenas o Comandante pode rebaixar a severidade. Elevar a severidade (por exemplo, P3 para P1) pode ser feito por qualquer Responder ou Comandante atribuido. Todas as mudancas de severidade sao registradas na timeline.
Metas de SLA personalizadas
Admins da organizacao podem configurar metas de SLA personalizadas para cada nivel de severidade. Veja Metas de SLA para detalhes sobre como ajustar esses valores para atender aos requisitos operacionais da sua equipe.