A NVIDIA escolheu a CES para apresentar Rubin, sua plataforma de próxima geração que combina seis novos chips e uma arquitetura pensada como um supercomputador de IA desde o primeiro traço do projeto. A proposta é clara: reduzir drasticamente o custo e o tempo necessários para treinar modelos cada vez maiores e tornar a inferência mais eficiente em um momento em que agentes de IA, modelos de raciocínio e sistemas multimodais avançam rápido demais para soluções tradicionais.
Rubin não é apenas uma GPU nova. É um ecossistema completo que integra CPU, GPU, rede, armazenamento e software em um único desenho coeso. O resultado prático é uma queda de até 10 vezes no custo do token de inferência e a necessidade de até quatro vezes menos GPUs para treinar modelos do tipo MoE quando comparado à geração Blackwell.
Seis chips, um único cérebro
No centro da plataforma estão a CPU NVIDIA Vera, a GPU Rubin, o switch NVLink 6, a SuperNIC ConnectX 9, a DPU BlueField 4 e o switch Ethernet Spectrum 6. Essa integração extrema reduz gargalos clássicos de comunicação entre componentes e transforma o rack inteiro em uma unidade de computação contínua.
Um dado curioso ajuda a dimensionar isso: o sistema Vera Rubin NVL72 entrega 260 TB por segundo de largura de banda dentro do rack, mais do que todo o tráfego estimado da internet global. Não é exagero técnico, é o tipo de número que muda como engenheiros pensam em escalar modelos de IA.
Vera Rubin e a homenagem que faz sentido
O nome da plataforma é uma homenagem à astrônoma Vera Rubin, responsável por descobertas fundamentais sobre a matéria escura. A escolha não é apenas simbólica. Assim como suas pesquisas revelaram estruturas invisíveis do universo, a arquitetura Rubin foi pensada para lidar com camadas ocultas de raciocínio em modelos de IA que operam em longas sequências de tokens.
A CPU Vera traz 88 núcleos personalizados Olympus, compatibilidade com Armv9.2 e interconexão NVLink C2C, focada em eficiência energética. Já a GPU Rubin aposta em um Transformer Engine de terceira geração com compressão adaptativa por hardware, alcançando até 50 petaflops em NVFP4 para inferência.
IA agêntica, raciocínio e menos desperdício
Rubin nasce em um contexto em que a IA deixou de apenas responder prompts e passou a agir, planejar e tomar decisões em múltiplas etapas. Esse tipo de carga exige memória, confiabilidade e previsibilidade. É aí que entram tecnologias como a Computação Confidencial de terceira geração, que protege dados em CPU, GPU e interconexões, e o novo motor RAS, com monitoramento em tempo real e manutenção mais rápida.
Outro ponto pouco comentado fora do meio técnico é o design modular e sem cabos do rack. Ele permite montagem e manutenção até 18 vezes mais rápidas que a geração anterior, algo que faz enorme diferença em data centers com centenas de milhares de GPUs.
Armazenamento que pensa junto com a IA
Um dos avanços mais interessantes da plataforma é o NVIDIA Inference Context Memory Storage. Em vez de tratar armazenamento como algo passivo, Rubin usa o BlueField 4 para compartilhar e reutilizar caches de inferência entre sessões e serviços. Isso reduz latência, melhora o throughput e viabiliza aplicações de IA agêntica em escala, com menor consumo de energia.
Esse mesmo BlueField introduz a arquitetura ASTRA, que centraliza o controle de segurança e isolamento em ambientes bare metal e multi-tenant, um tema cada vez mais sensível à medida que modelos proprietários se tornam ativos estratégicos.
Ethernet também virou peça-chave
Se antes a conversa sobre IA girava só em torno de GPUs, Rubin deixa claro que rede é parte do desempenho. O Spectrum 6 e a plataforma Spectrum X Ethernet Photonics apostam em óptica co-empacotada e SerDes de 200G para entregar até cinco vezes mais eficiência energética e maior tempo de atividade. Em termos práticos, isso permite que data centers separados por centenas de quilômetros funcionem como um único ambiente de IA.
Do laboratório à nuvem
Grandes nomes do ecossistema já sinalizaram adoção da plataforma, incluindo AWS, Google Cloud, Microsoft Azure e Oracle Cloud, além de provedores especializados como CoreWeave. A Microsoft, por exemplo, planeja usar sistemas Vera Rubin NVL72 em suas futuras superfábricas de IA, enquanto a CoreWeave integra o Rubin à sua nuvem com foco em flexibilidade operacional.
Fabricantes como Dell, HPE, Lenovo e Supermicro também devem oferecer servidores baseados em Rubin, enquanto laboratórios de IA como OpenAI, Anthropic, Mistral e xAI observam a plataforma como base para modelos maiores, mais rápidos e com menor custo por token.
O que muda daqui para frente
Rubin marca a terceira geração da arquitetura de rack da NVIDIA e deixa claro o rumo da indústria: menos componentes isolados, mais sistemas pensados como fábricas de inteligência. A colaboração ampliada com a Red Hat reforça esse movimento ao levar uma pilha completa de software otimizada para a plataforma, algo essencial para adoção em larga escala no mundo corporativo.
Os produtos baseados em Rubin entram em disponibilidade no segundo semestre de 2026. Até lá, a mensagem já está dada. A próxima fase da IA não será definida apenas por modelos maiores, mas por infraestruturas capazes de sustentar raciocínio, agentes autônomos e escala real. E, ao que tudo indica, a NVIDIA quer continuar ditando esse compasso.


