NovaFonte oficial🌐 100% RemotaCLT

AI Runtime & Inference Engineer - LLM Platforms | Specialist (Remote)

Compass UOL·Publicada há 2 dias

Você vai direto pra vaga — sem criar conta aqui.

Verificada em 22/05/2026 · Clique e candidate-se.

Sobre a vaga

Responsabilidades e atribuiçõesOperar, otimizar e evoluir o runtime de agentes e a infraestrutura de inferência de LLMs em produção;Definir e implementar arquitetura de endpoints de modelo com foco em SLOs de latência e disponibilidade;Projetar e manter pipelines completos de observabilidade: métricas, logs estruturados, traces distribuídos e alertas inteligentes;Conduzir otimizações avançadas de performance: batching dinâmico, caching semântico, quantização e gestão de contexto;Liderar resposta a incidentes e análises de causa raiz em falhas do ambiente de inferência;Definir padrões de resiliência e estratégias de failover para workloads de LLM em produção;Produzir runbooks, playbooks e documentação operacional de referência para o ambiente;

Requisitos e qualificações

Habilidades necessárias:Expertise em operação de modelos de linguagem em produção com foco em performance e disponibilidade;Domínio de frameworks de LLM serving em escala: vLLM, TGI (Text Generation Inference), Triton Inference Server ou equivalentes;Experiência avançada com Kubernetes e gerenciamento de workloads de inferência com aceleradores;Expertise em observabilidade em ambientes complexos: Prometheus, Grafana, OpenTelemetry e correlação de sinais;Profundo conhecimento de AWS e seus serviços de ML (SageMaker Endpoints, Bedrock, EKS);

Habilidades desejáveis:Experiência com otimização avançada de modelos: quantização (GPTQ, AWQ), distilação e compilação para inferência;Conhecimento prático de GPUs e aceleradores (NVIDIA A100/H100) em contextos de produção;Experiência com caching semântico e estratégias avançadas de gestão de contexto para LLMs;Histórico de atuação em SRE ou engenharia de plataforma em ambientes de missão crítica;Experiência com arquiteturas multi-região e estratégias de disaster recovery para workloads de IA;

Responsabilidades

Operar, otimizar e evoluir o runtime de agentes e a infraestrutura de inferência de LLMs em produção;

Definir e implementar arquitetura de endpoints de modelo com foco em SLOs de latência e disponibilidade;

Projetar e manter pipelines completos de observabilidade: métricas, logs estruturados, traces distribuídos e alertas inteligentes;

Conduzir otimizações avançadas de performance: batching dinâmico, caching semântico, quantização e gestão de contexto;

Liderar resposta a incidentes e análises de causa raiz em falhas do ambiente de inferência;

Definir padrões de resiliência e estratégias de failover para workloads de LLM em produção;

Produzir runbooks, playbooks e documentação operacional de referência para o ambiente;

Requisitos

Habilidades necessárias: Expertise em operação de modelos de linguagem em produção com foco em performance e disponibilidade;

Domínio de frameworks de LLM serving em escala: vLLM, TGI (Text Generation Inference), Triton Inference Server ou equivalentes;

Experiência avançada com Kubernetes e gerenciamento de workloads de inferência com aceleradores;

Expertise em observabilidade em ambientes complexos: Prometheus, Grafana, OpenTelemetry e correlação de sinais;

Profundo conhecimento de AWS e seus serviços de ML (SageMaker Endpoints, Bedrock, EKS);

Habilidades desejáveis: Experiência com otimização avançada de modelos: quantização (GPTQ, AWQ), distilação e compilação para inferência;

Conhecimento prático de GPUs e aceleradores (NVIDIA A100/H100) em contextos de produção;

Experiência com caching semântico e estratégias avançadas de gestão de contexto para LLMs;

Histórico de atuação em SRE ou engenharia de plataforma em ambientes de missão crítica;

Experiência com arquiteturas multi-região e estratégias de disaster recovery para workloads de IA;

Candidatar-se no site oficial

Receba vagas de Tecnologia como esta por e-mail

Grátis. Cancele quando quiser.

Explorar mais vagas

Vagas de Tecnologia Vagas 100% Remotas Ver todas as vagas

Vagas relacionadas

Senior Staff Engineer

✨ Nova

Turing

há 13 minutos · Brazil; India - Remote

🌐 100% Remoto💼 CLT💻 Tecnologia

SOFTWARE DEVELOPER | FULL STACK .NET + REACT | REMOTO

✨ Nova

Localiza&Co

há 1 dia · Belo Horizonte, Minas Gerais

🌐 100% Remoto💼 CLT💻 Tecnologia

Full Stack Software Developer – LAC (Brazil) - 12 months contractor

✨ Nova

Delivery Associates

há 1 dia

🌐 100% Remoto💼 CLT💻 Tecnologia

AI Solution Engineer – LAC (Brazil) - 12 months contractor

✨ Nova

Delivery Associates

há 1 dia

🌐 100% Remoto💼 CLT💻 Tecnologia

Candidatar-se no site oficial