Políticas de escalonamento
Políticas de escalonamento definem o que acontece quando um alerta não é confirmado dentro de um timeout especificado. Elas garantem que alertas críticos sempre cheguem a um responder, mesmo que a pessoa em plantão primário esteja indisponível.
Como funciona o escalonamento
- Um alerta é roteado para o responder em plantão atual.
- Uma contagem regressiva é iniciada com base no timeout configurado (em minutos).
- Se o alerta não for confirmado antes do timeout expirar, ele é roteado para o próximo alvo na política.
- Esse processo se repete até que o alerta seja confirmado ou a cadeia de políticas se esgote.
Criando uma política de escalonamento
Navegue até Plantão > Políticas de Escalonamento e clique em Criar Política.
Modelo da política
Cada política de escalonamento é um único nó em uma lista encadeada. Uma política define:
| Campo | Descrição |
|---|---|
name | Nome legível da política |
schedule_id | A escala de plantão a notificar neste nível |
timeout_minutes | Quanto tempo esperar antes de escalar para a próxima política |
next_policy_id | Opcional — a próxima política para escalar se esta atingir o timeout |
incident_types | Quais tipos de incidente acionam esta política (vazio = todos) |
As políticas se encadeiam via next_policy_id. Quando um alerta não é confirmado dentro de timeout_minutes, o sistema segue o link para a próxima política. Se next_policy_id é null, a cadeia termina e não há mais escalonamento.
Exemplo de cadeia:
Política: Backend Principal (schedule: backend-primary, timeout: 5 min)
→ next_policy_id: Backend Secundária
Política: Backend Secundária (schedule: backend-secondary, timeout: 10 min)
→ next_policy_id: Gestor de Engenharia
Política: Gestor de Engenharia (schedule: eng-manager, timeout: 15 min)
→ next_policy_id: null (cadeia termina)Se ninguém confirmar em 30 minutos, o alerta chega ao gestor de engenharia e para.
TIP
Mantenha o primeiro timeout curto (3-5 minutos) para incidentes de alta severidade. Use timeouts mais longos para alertas de baixa severidade para dar mais tempo ao responder primário.
Triggers por tipo de incidente
Você pode anexar políticas de escalonamento a tipos de incidente específicos para que diferentes categorias de alertas sigam caminhos de escalonamento diferentes.
Por exemplo:
- SEV1 - Crítico: Escalonar para o gestor de engenharia após 5 minutos.
- SEV2 - Aviso: Escalonar para a escala secundária após 15 minutos.
- SEV3 - Info: Sem escalonamento; alerta expira após 60 minutos se não confirmado.
Configure triggers por tipo de incidente nas configurações da política em Triggers.
INFO
Se nenhum tipo de incidente for especificado, a política se aplica a todos os alertas roteados por ela. Você pode criar uma política padrão e sobrescrevê-la com políticas específicas por tipo.
Cadeias de políticas
Cada política aponta para no máximo uma outra política via next_policy_id. Isso forma uma cadeia linear — não uma árvore ou grafo. Para construir escalonamento multi-time, aponte a última política de um time para a primeira política de outro time.
Evite cadeias longas. Duas ou três políticas em sequência são suficientes para a maioria das organizações.
Comportamento do timeout
A contagem regressiva do timeout começa quando o alerta é criado (o timestamp triggered_at).
Timer de escalonamento
Um processo em segundo plano executa a cada 30 segundos e verifica alertas pendentes cujo timeout expirou. Quando um escalonamento dispara, o sistema publica um evento oncall.escalated no NATS JetStream.
O timer respeita horário comercial e calendários de feriados configurados na escala de destino. Se o horário atual estiver fora do horário comercial ou em um feriado, o timeout é pausado e retoma quando a próxima janela comercial abre.