NovaFonte oficial🌐 100% RemotaCLT

Site Reliability Engineer Lead (Observabilidade)

ASAAS·Publicada há cerca de 19 horas

Candidatura direto no site oficial da empresa.

Verificada em 15/05/2026 · Sem intermediários.

Sobre a vaga

Se você tem paixão por inovação e busca trabalhar em um ambiente ágil, colaborativo e desafiador, esta pode ser a sua oportunidade!

O time de Cloud do Asaas está buscando uma pessoa para liderar o time de Site Reliability Engineering (SRE), sendo responsável por construir e evoluir a cultura de confiabilidade da nossa plataforma. Você será peça-chave na estruturação deste time, liderando especialistas em observabilidade, gerenciamento de incidentes e práticas de SRE.

Como SRE Lead, você combinará excelência técnica com liderança de pessoas, sendo responsável pela estratégia de observabilidade, definição de SLIs/SLOs, gestão de incidentes e redução de toil. Sua atuação garantirá que nossos times tenham visibilidade completa da plataforma e possam tomar decisões rápidas e assertivas.

Qualidade e confiabilidade são fundamentais para atender mais de 230 mil clientes! Se você compartilha dessa visão e quer construir um time de SRE de referência, junte-se ao nosso time!

Reside fora de Joinville? Sem problemas! Esta oportunidade está aberta para trabalho remoto/home office.

Responsabilidades

Liderança e Gestão de Pessoas

Liderar, desenvolver e reter o time de SRE, promovendo alta performance, colaboração e aprendizado contínuo;
Conduzir contratação, onboarding, feedbacks, PDIs e avaliações de desempenho;
Definir estratégia e roadmap do time de SRE, alinhado aos objetivos de Cloud e do negócio;
Disseminar a cultura de SRE e observabilidade, atuando como referência para Engenharia;
Gerenciar prioridades, capacidade e trade-offs do time, garantindo entregas com qualidade;
Alinhar iniciativas com lideranças de Cloud Engineering, Platform Engineering e Cloud Security;
Reportar métricas, riscos e evolução do time para a liderança de Cloud.

Observabilidade e Confiabilidade

Definir e liderar a estratégia de observabilidade (métricas, logs e traces);
Evoluir a plataforma de observabilidade (Prometheus, Grafana, OpenTelemetry, Loki, Tempo);
Estabelecer e governar SLIs, SLOs e Error Budgets para serviços críticos;
Definir padrões de instrumentação para aplicações e infraestrutura, impulsionando adoção pelos times;
Implementar estratégia de alertas acionáveis, reduzindo ruído;
Planejar e executar gestão de capacidade baseada em métricas;
Otimizar custos e performance das soluções de observabilidade em escala.

Gestão de Incidentes e Melhoria Contínua

Estruturar e liderar o processo de gestão de incidentes (escalação, war room e comunicação);
Garantir post-mortems blameless e acompanhar ações corretivas;
Identificar recorrências e propor melhorias sistêmicas baseadas em dados;
Liderar redução de toil com automações operacionais;
Manter documentação operacional (runbooks, procedimentos e arquiteturas) atualizada e acessível.

Requisitos

Experiência em liderança de times técnicos (SRE, DevOps, Cloud Engineering);
Experiência em práticas de SRE, incluindo SLIs, SLOs, Error Budgets e Toil Reduction;
Experiência com APM tools (Datadog, New Relic, Dynatrace);
Conhecimento em observabilidade e telemetria (métricas, logs, traces), com Prometheus e OpenTelemetry (Grafana);
Experiência prática com Infraestrutura como Código (AWS CDK, Terraform);
Proficiência em linguagens de scripting (Python, Bash) e pelo menos uma linguagem de programação (Go, Java);
Experiência com soluções de logging e tracing em escala (Loki, Tempo, Jaeger, ELK Stack);
Experiência com Cloud, preferencialmente AWS;
Experiência com containers (Docker) e orquestração (Kubernetes, ECS);
Experiência em gerenciamento de incidentes e post-mortem;
Entendimento de sistemas Linux e suas ferramentas de diagnóstico;
Inglês técnico (leitura e escrita).

Candidatar-se no site oficial

Vagas relacionadas

Jovem Aprendiz - Marketing e CRM

✨ Nova

ASAAS

há cerca de 4 horas · Joinville, SC

🔀 Híbrido📚 Aprendiz📣 Marketing

11227815 | Analista de Desenvolvimento Full Stack.NET PL

✨ Nova

TIVIT

há cerca de 5 horas

🌐 100% Remoto💼 CLT💻 Tecnologia

Pessoa Engenheira de Software Especialista II

✨ Nova

Grupo Boticário

há cerca de 5 horas

🌐 100% Remoto💼 CLT💻 Tecnologia

11258249 | Analista Middleware DevOps Pleno

✨ Nova

TIVIT

há cerca de 6 horas · Taboão da Serra, SP

🔀 Híbrido💼 CLT💻 Tecnologia