Fonte oficial🔀 HíbridaCLT

Site Reliability Engineer

Stefanini Latam·Bogotá, D.c.·Publicada há 21 dias

Você vai direto pra vaga — sem criar conta aqui.

Verificada em 18/05/2026 · Clique e candidate-se.

Sobre a vaga

¡Sé parte de Stefanini!En Stefanini somos más de 30.000 genios, conectados desde 41 países, haciendo lo que les apasiona y co-creando un futuro mejor.Responsabilidades y atribucionesEl Data & Site Reliability Engineer Senior es responsable de garantizar la confiabilidad, estabilidad y operación continua de las plataformas de datos y servicios analíticos de la organización.Este rol combina las mejores prácticas de Site Reliability Engineering (SRE) y Data Reliability Engineering (DRE), enfocándose en la prevención de incidentes, automatización de procesos, reducción del tiempo de recuperación ante fallos (MTTR) y mejora de la experiencia operativa de extremo a extremo.Lidera la definición y gobierno de indicadores de servicio (SLIs/SLOs) como frescura, completitud, latencia, confiabilidad y disponibilidad, impulsando la evolución hacia modelos operativos IOps y NoOps.Requisitos y calificacionesLiderar la estrategia de confiabilidad de la plataforma de datos de NEQUIDiseñar e implementar el framework de observabilidad sobre Grafana + PrometheusConstruir y mantener runbooks operativos en colaboración con el Tech Lead de NEQUILiderar postmortem de incidentes P1/P2 y hacer seguimiento de planes de acciónIdentificar y ejecutar iniciativas de automatización (iOps, NoOps, AIOps)Gestionar el backlog técnico de deuda operativa y mejoras de confiabilidadSer el punto de articulación técnico de Stefanini con el Tech Lead de NEQUIProponer y ejecutar el roadmap de AIOps en coordinación con NEQUIMínimo 2 años o más de experiencia en roles de SRE, DRE, DevOps o ingeniería de plataformas de datos en ambientes productivos.Experiencia comprobable liderando incidentes críticos y proyectos de automatización en entornos de datos.Requisitos y competencias: 2+ años de experiencia en roles SRE, DRE, DataOps o Platform EngineeringDominio de Apache Airflow: gestión de DAGs, depuración, optimización de pipelinesExperiencia con dbt (data build tool): modelos, pruebas, linaje de datosConocimiento de Amazon Redshift: administración, optimización de consultas, WLMManejo de Grafana + Prometheus: dashboards, alertas, PromQLExperiencia con OpsGenie o herramienta equivalente de gestión de alertasConocimiento de AWS Glue, Lambda, CloudWatchFamiliaridad con metodologías SRE: error budgets, SLOs, SLIs, SLAsExperiencia con Jira Service Management o herramienta ITSM equivalenteHabilidades soft:Liderazgo técnico y capacidad para coordinar equipos multidisciplinarios durante incidentes críticos (P1/P2).Pensamiento analítico y enfoque en la resolución de problemas complejos.Capacidad para realizar análisis de causa raíz (postmortems) y proponer mejoras estructurales.Comunicación efectiva para interactuar con equipos técnicos y de negocio.Proactividad, orientación a la mejora continua y gestión bajo presión.Habilidad para documentar procesos, incidentes y automatizaciones de manera clara y estandarizada. Informaciones adicionales

Candidatar-se no site oficial

Receba vagas de Tecnologia como esta por e-mail

Grátis. Cancele quando quiser.

Explorar mais vagas

Vagas de Tecnologia Vagas Híbridas Ver todas as vagas