Voltar para vagas
Fonte oficial🔀 HíbridaCLT
Site Reliability Engineer
Você vai direto pra vaga — sem criar conta aqui.
Verificada em 18/05/2026 · Clique e candidate-se.
Sobre a vaga
¡Sé parte de Stefanini!En Stefanini somos más de 30.000 genios, conectados desde 41 países, haciendo lo que les apasiona y co-creando un futuro mejor.Responsabilidades y atribucionesEl Data & Site Reliability Engineer Senior es responsable de garantizar la confiabilidad, estabilidad y operación continua de las plataformas de datos y servicios analíticos de la organización.Este rol combina las mejores prácticas de Site Reliability Engineering (SRE) y Data Reliability Engineering (DRE), enfocándose en la prevención de incidentes, automatización de procesos, reducción del tiempo de recuperación ante fallos (MTTR) y mejora de la experiencia operativa de extremo a extremo.Lidera la definición y gobierno de indicadores de servicio (SLIs/SLOs) como frescura, completitud, latencia, confiabilidad y disponibilidad, impulsando la evolución hacia modelos operativos IOps y NoOps.Requisitos y calificacionesLiderar la estrategia de confiabilidad de la plataforma de datos de NEQUIDiseñar e implementar el framework de observabilidad sobre Grafana + PrometheusConstruir y mantener runbooks operativos en colaboración con el Tech Lead de NEQUILiderar postmortem de incidentes P1/P2 y hacer seguimiento de planes de acciónIdentificar y ejecutar iniciativas de automatización (iOps, NoOps, AIOps)Gestionar el backlog técnico de deuda operativa y mejoras de confiabilidadSer el punto de articulación técnico de Stefanini con el Tech Lead de NEQUIProponer y ejecutar el roadmap de AIOps en coordinación con NEQUIMínimo 2 años o más de experiencia en roles de SRE, DRE, DevOps o ingeniería de plataformas de datos en ambientes productivos.Experiencia comprobable liderando incidentes críticos y proyectos de automatización en entornos de datos.Requisitos y competencias: 2+ años de experiencia en roles SRE, DRE, DataOps o Platform EngineeringDominio de Apache Airflow: gestión de DAGs, depuración, optimización de pipelinesExperiencia con dbt (data build tool): modelos, pruebas, linaje de datosConocimiento de Amazon Redshift: administración, optimización de consultas, WLMManejo de Grafana + Prometheus: dashboards, alertas, PromQLExperiencia con OpsGenie o herramienta equivalente de gestión de alertasConocimiento de AWS Glue, Lambda, CloudWatchFamiliaridad con metodologías SRE: error budgets, SLOs, SLIs, SLAsExperiencia con Jira Service Management o herramienta ITSM equivalenteHabilidades soft:Liderazgo técnico y capacidad para coordinar equipos multidisciplinarios durante incidentes críticos (P1/P2).Pensamiento analítico y enfoque en la resolución de problemas complejos.Capacidad para realizar análisis de causa raíz (postmortems) y proponer mejoras estructurales.Comunicación efectiva para interactuar con equipos técnicos y de negocio.Proactividad, orientación a la mejora continua y gestión bajo presión.Habilidad para documentar procesos, incidentes y automatizaciones de manera clara y estandarizada. Informaciones adicionales
Receba vagas de Tecnologia como esta por e-mail
Grátis. Cancele quando quiser.
Explorar mais vagas
Vagas relacionadas
Senior Staff Engineer
✨ Nova
Turing
há cerca de 1 hora · Brazil; India - Remote
🌐 100% Remoto💼 CLT💻 Tecnologia
SOFTWARE DEVELOPER | FULL STACK .NET + REACT | REMOTO
✨ Nova
Localiza&Co
há 1 dia · Belo Horizonte, Minas Gerais
🌐 100% Remoto💼 CLT💻 Tecnologia
Full Stack Software Developer – LAC (Brazil) - 12 months contractor
✨ Nova
Delivery Associates
há 1 dia
🌐 100% Remoto💼 CLT💻 Tecnologia
AI Solution Engineer – LAC (Brazil) - 12 months contractor
✨ Nova
Delivery Associates
há 1 dia
🌐 100% Remoto💼 CLT💻 Tecnologia
