Skip to content

Políticas de escalonamento

Políticas de escalonamento definem o que acontece quando um alerta não é confirmado dentro de um timeout especificado. Elas garantem que alertas críticos sempre cheguem a um responder, mesmo que a pessoa em plantão primário esteja indisponível.

Como funciona o escalonamento

  1. Um alerta é roteado para o responder em plantão atual.
  2. Uma contagem regressiva é iniciada com base no timeout configurado (em minutos).
  3. Se o alerta não for confirmado antes do timeout expirar, ele é roteado para o próximo alvo na política.
  4. Esse processo se repete até que o alerta seja confirmado ou a cadeia de políticas se esgote.

Criando uma política de escalonamento

Navegue até Plantão > Políticas de Escalonamento e clique em Criar Política.

Modelo da política

Cada política de escalonamento é um único nó em uma lista encadeada. Uma política define:

CampoDescrição
nameNome legível da política
schedule_idA escala de plantão a notificar neste nível
timeout_minutesQuanto tempo esperar antes de escalar para a próxima política
next_policy_idOpcional — a próxima política para escalar se esta atingir o timeout
incident_typesQuais tipos de incidente acionam esta política (vazio = todos)

As políticas se encadeiam via next_policy_id. Quando um alerta não é confirmado dentro de timeout_minutes, o sistema segue o link para a próxima política. Se next_policy_id é null, a cadeia termina e não há mais escalonamento.

Exemplo de cadeia:

Política: Backend Principal (schedule: backend-primary, timeout: 5 min)
  → next_policy_id: Backend Secundária
Política: Backend Secundária (schedule: backend-secondary, timeout: 10 min)
  → next_policy_id: Gestor de Engenharia
Política: Gestor de Engenharia (schedule: eng-manager, timeout: 15 min)
  → next_policy_id: null (cadeia termina)

Se ninguém confirmar em 30 minutos, o alerta chega ao gestor de engenharia e para.

TIP

Mantenha o primeiro timeout curto (3-5 minutos) para incidentes de alta severidade. Use timeouts mais longos para alertas de baixa severidade para dar mais tempo ao responder primário.

Triggers por tipo de incidente

Você pode anexar políticas de escalonamento a tipos de incidente específicos para que diferentes categorias de alertas sigam caminhos de escalonamento diferentes.

Por exemplo:

  • SEV1 - Crítico: Escalonar para o gestor de engenharia após 5 minutos.
  • SEV2 - Aviso: Escalonar para a escala secundária após 15 minutos.
  • SEV3 - Info: Sem escalonamento; alerta expira após 60 minutos se não confirmado.

Configure triggers por tipo de incidente nas configurações da política em Triggers.

INFO

Se nenhum tipo de incidente for especificado, a política se aplica a todos os alertas roteados por ela. Você pode criar uma política padrão e sobrescrevê-la com políticas específicas por tipo.

Cadeias de políticas

Cada política aponta para no máximo uma outra política via next_policy_id. Isso forma uma cadeia linear — não uma árvore ou grafo. Para construir escalonamento multi-time, aponte a última política de um time para a primeira política de outro time.

Evite cadeias longas. Duas ou três políticas em sequência são suficientes para a maioria das organizações.

Comportamento do timeout

A contagem regressiva do timeout começa quando o alerta é criado (o timestamp triggered_at).

Timer de escalonamento

Um processo em segundo plano executa a cada 30 segundos e verifica alertas pendentes cujo timeout expirou. Quando um escalonamento dispara, o sistema publica um evento oncall.escalated no NATS JetStream.

O timer respeita horário comercial e calendários de feriados configurados na escala de destino. Se o horário atual estiver fora do horário comercial ou em um feriado, o timeout é pausado e retoma quando a próxima janela comercial abre.

Built by the Batida team