Voltar para vagas
Fonte oficial🌐 100% RemotaCLT
Site Reliability Engineering Sênior
Você vai direto pra vaga — sem criar conta aqui.
Verificada em 18/05/2026 · Clique e candidate-se.
Sobre a vaga
A Darede tem o objetivo de continuar revolucionando os negócios em Cloud no Brasil e nos tornarmos a mais relevante consultoria do segmento, afinal, THE FUTURE IS CLOUD!Buscamos um SRE Sênior apaixonado por estabilidade, performance e automação para integrar uma Squad estratégica de Engenharia de Resiliência. O desafio principal é atuar de forma proativa em um ecossistema complexo e de alta criticidade, movendo a operação de um modelo reativo para uma cultura de confiabilidade. Você será responsável por projetar e implementar soluções que previnam falhas, garantindo que sistemas que sustentam a receita do negócio operem com máxima disponibilidade.Se você tem curiosidade e vontade de aprender novas ferramentas, plataformas e tecnologias, é Data Driven e HandsOn, é uma pessoa sempre antenada nas novidades do Mundo Cloud, essa vaga é para você!Candidate-se, queremos te conhecer!Responsabilidades e atribuiçõesLiderança em Incidentes:Atuar como Líder de Resposta a Incidentes em War Rooms, coordenando a resolução técnica e a comunicação com stakeholders.Engenharia de Observabilidade:Projetar e evoluir a telemetria no Datadog (Logs, APM, Traces e métricas de negócio) para reduzir o MTTD e o esforço cognitivo do time.Gestão de Workloads em AWS Amplify:Garantir a resiliência e a escalabilidade de aplicações front-end e APIs críticas hospedadas.Governança de SRE:Definir e monitorar SLIs, SLOs e SLAs, gerindo o Error Budget para equilibrar a velocidade de entrega com a estabilidade.Automação de Mitigação:Desenvolver ferramentas e scripts de auto-healing (rollback automático, restart controlado, isolamento de componentes).Análise de Causa Raiz:Conduzir processos de Post-mortem blameless e garantir a implementação de melhorias estruturais para evitar reincidências.Modernização de Sistemas:Atuar junto aos times de desenvolvimento para implementar padrões de resiliência (Circuit Breakers, Bulkheads e Rate Limiting) tanto em arquiteturas modernas quanto em sistemas legados.IA na Operação:Implementar soluções de detecção de anomalias e resposta inteligente utilizando AIOps (Datadog Bits AI ou AWS DevOps Agent).Requisitos e qualificaçõesSenioridade comprovada em SRE ou DevOps: Experiência sólida em ambientes de alta escala e missão crítica.Domínio Profundo de AWS: Experiência avançada em EC2, RDS, S3, IAM, EKS e Amplify.Domínio de ferramentas de Observabilidade: Sólida experiência em monitoramento, logs e APM (preferencialmente utilizando Datadog).Containers & Orquestração: Sólidos conhecimentos em Docker e Kubernetes (EKS/GKE).Infraestrutura como Código (IaC): Domínio de Terraform.Desenvolvimento/Scripts: Fluidez em Python, Go ou Shell Script para automação.Gestão de Incidentes: Experiência real com plantões on-call e resolução de problemas em tempo real.+Diferenciais (Desejáveis);Perfil Analítico para Sistemas Legados: Experiência em troubleshooting de aplicações em .NET Framework e bancos de dados Oracle ou PostgreSQL.Chaos Engineering: Experiência na execução de testes de estresse e resiliência controlados.Certificações: AWS Certified DevOps Engineer - Professional ou Certificações oficiais Datadog.+Competências Comportamentais;Perfil de liderança técnica e resiliência sob pressão.Excelente comunicação para interagir com áreas de negócio e tecnologia.Protagonismo e senso de responsabilidade na resolução definitiva de problemas.Informações adicionaisBENEFÍCIOS📚 Incentivos Educacionais (Parcerias com Instituições de Ensino)🌴 Férias Remuneradas🏋️TotalPass🎂Birthday off🏥 Assistência Médica🦷 Assistência Odontológica🤰 Licença Maternidade👨👩👧👦 Licença Paternidade🌟 Reembolso em Certificações AWS
Receba vagas de Tecnologia como esta por e-mail
Grátis. Cancele quando quiser.
Explorar mais vagas
Vagas relacionadas
Senior Staff Engineer
✨ Nova
Turing
há cerca de 6 horas · Brazil; India - Remote
🌐 100% Remoto💼 CLT💻 Tecnologia
SOFTWARE DEVELOPER | FULL STACK .NET + REACT | REMOTO
✨ Nova
Localiza&Co
há cerca de 24 horas · Belo Horizonte, Minas Gerais
🌐 100% Remoto💼 CLT💻 Tecnologia
Full Stack Software Developer – LAC (Brazil) - 12 months contractor
✨ Nova
Delivery Associates
há cerca de 24 horas
🌐 100% Remoto💼 CLT💻 Tecnologia
AI Solution Engineer – LAC (Brazil) - 12 months contractor
✨ Nova
Delivery Associates
há cerca de 24 horas
🌐 100% Remoto💼 CLT💻 Tecnologia
