에이전틱 AI 시대의 개막, NVIDIA Vera Rubin

에이전틱 AI의 새로운 지평을 열어가는 NVIDIA Vera Rubin 플랫폼을 소개합니다! 세계 최대 규모 AI 팩토리 확장을 위한 7종의 신규 칩 양산이 시작됐습니다.

이 플랫폼은 NVIDIA Vera CPU, NVIDIA Rubin GPU, NVIDIA NVLink™ 6 스위치, NVIDIA ConnectX^®-9 SuperNIC, NVIDIA BlueField^®-4 DPU, NVIDIA Spectrum™-6 이더넷 스위치, 그리고 새롭게 통합된 NVIDIA Groq 3 LPU를 포함합니다. 하나의 강력한 AI 슈퍼컴퓨터로 작동하도록 설계된 이 칩들은 대규모 사전·사후 훈련, 테스트 시점 확장부터 실시간 에이전틱 추론까지 AI의 전 단계를 지원합니다.

NVIDIA 젠슨 황 CEO는 “Vera Rubin은 세대를 뛰어넘는 도약입니다. 7개의 혁신적인 칩, 5개의 랙, 하나의 거대한 슈퍼컴퓨터가 AI의 모든 단계를 지원하기 위해 구축됐습니다. 이제 에이전틱 AI의 전환점이 도래했으며, Vera Rubin이 역사상 가장 위대한 인프라 구축을 본격화하고 있습니다”라고 말했습니다.

앤트로픽(Anthropic) CEO 겸 공동 창립자인 Dario Amodei는 “기업과 개발자들은 점점 더 복잡한 추론, 에이전틱 워크플로우, 미션 크리티컬 의사결정을 위해 클로드(Claude)를 활용하고 있습니다. 이를 위해서는 이러한 변화에 발맞출 수 있는 인프라가 필요한데요. NVIDIA Vera Rubin 플랫폼은 서비스를 지속적으로 제공하는 데 필요한 컴퓨팅, 네트워킹, 시스템 설계 역량을 제공하며, 고객의 안전성과 신뢰성을 한층 더 높여줍니다”라고 말했습니다.

오픈AI(OpenAI) CEO인 Sam Altman은 “NVIDIA 인프라는 AI의 지평을 계속 넓혀갈 수 있게 하는 기반입니다. NVIDIA Vera Rubin을 통해 더 강력한 모델과 에이전트를 대규모로 구동하고, 수억 명의 사용자에게 더 빠르고 더 안정적인 시스템을 제공할 것입니다”라고 밝혔습니다.

POD 규모 시스템으로의 전환

AI 인프라는 개별 칩과 독립형 서버에서 완전 통합형 랙 규모 시스템, POD 규모 배치, AI 팩토리, 소버린 AI(sovereign AI)로 빠르게 진화하고 있습니다. 이러한 발전은 성능을 획기적으로 끌어올리고, 스타트업, 중견기업, 공공·민관 기관, 대기업에 이르기까지 모든 규모와 산업 분야의 비용 효율성을 개선하죠. 동시에 AI 접근성을 높이고 에너지 효율을 개선해 세계에서 가장 까다로운 워크로드를 구동하는 데 기여합니다.

NVIDIA Vera Rubin은 컴퓨팅, 네트워킹, 스토리지 전반에 걸친 긴밀한 공동 설계를 가능하게 합니다. 글로벌 공급망을 갖춘 80개 이상의 NVIDIA MGX 생태계 파트너가 이를 지원하죠. 또한 가장 광범위한 NVIDIA POD 규모 플랫폼을 제공하는데요. 이는 AI 전용으로 설계된 여러 랙이 하나의 거대한 일관된 통합 시스템으로 작동하는 슈퍼컴퓨터입니다.

NVIDIA Vera Rubin NVL72 랙

NVLink 6로 연결된 72개의 Rubin GPU와 36개의 Vera CPU, ConnectX-9 SuperNIC, BlueField-4 DPU를 통합한 Vera Rubin NVL72는 획기적인 효율성을 제공합니다. NVIDIA Blackwell 플랫폼 대비 4분의 1 수준의 GPU 수로 대규모 전문가 혼합(MoE) 모델을 훈련시키고, 토큰당 비용은 10분의 1 수준으로 유지하며, 와트당 추론 처리량을 최대 10배까지 향상시킵니다.

전 세계 하이퍼스케일 AI 팩토리를 위해 설계된 NVL72는 NVIDIA Quantum-X800 InfiniBand와 Spectrum-X 이더넷과 원활하게 확장되는데요. 이를 통해 대규모 GPU 클러스터 전반에서 높은 활용도를 유지하는 동시에 훈련 시간을 줄이고 총소유비용을 절감시킵니다.

NVIDIA Vera CPU 랙

강화학습과 에이전틱 AI 워크로드는 GPU 시스템 모델에서 생성된 결과를 테스트, 검증하기 위해 다수의 CPU 기반 환경에 의존합니다.

NVIDIA Vera CPU 랙은 NVIDIA MGX 기반의 고밀도 액체 냉각 인프라를 제공하며, 256개의 Vera CPU를 통합해 확장 가능하고 에너지 효율적인 용량을 제공하죠. 이를 통해 세계 최고 수준의 단일 스레드 성능으로 대규모 에이전틱 AI를 구현합니다.

Spectrum-X 이더넷 네트워킹과 통합된 Vera CPU 랙은 AI 팩토리 전반에 걸쳐 CPU 환경을 긴밀하게 동기화합니다. GPU 컴퓨팅 랙과 함께 대규모 에이전틱 AI와 강화학습을 위한 CPU 기반을 제공하죠. Vera는 기존 CPU 대비 2배 높은 효율성과 50% 더 빠른 속도로 결과를 제공합니다.

NVIDIA Groq 3 LPX 랙

NVIDIA Groq 3 LPX는 가속 컴퓨팅의 새로운 이정표로, 에이전틱 시스템의 저지연과 대규모 컨텍스트 요구사항을 충족하도록 설계됐습니다. LPX와 Vera Rubin의 뛰어난 성능과 결합해 메가와트당 최대 35배 더 높은 추론 처리량을 제공하고, 1조 파라미터 모델 기준 최대 10배 더 높은 수익 기회를 창출하죠.

대규모 환경에서 LPU 플릿(fleets)은 빠르고 결정적인 추론을 위한 단일 논리 프로세서로 작동합니다. 256개의 LPU 프로세서를 탑재한 LPX 랙은 128GB 온칩 SRAM과 초당 640TB의 확장형 대역폭을 제공하는데요. Vera Rubin NVL72에 탑재된 Rubin GPU와 LPU는 AI 모델의 모든 출력 토큰의 각 레이어를 공동으로 연산해, 디코딩을 가속화합니다.

1조 파라미터 모델과 100만 토큰 컨텍스트에 최적화된 공동 설계형 LPX 아키텍처는 Vera Rubin과 결합해 전력, 메모리, 컴퓨팅 전반의 효율성을 극대화합니다. 또한 와트당 처리량과 토큰당 성능을 높여 수조 파라미터, 백만 컨텍스트 기반의 초고성능 추론이라는 새로운 성능 단계를 구현합니다. 완전 액체 냉각 방식과 MGX 인프라 기반으로 구축된 LPX는 차세대 Vera Rubin AI 팩토리에 원활하게 통합될 수 있도록 설계됐죠. 올해 하반기에 출시될 예정입니다.

NVIDIA BlueField-4 STX 스토리지 랙

NVIDIA BlueField-4 STX 랙 규모 시스템은 GPU 메모리를 POD 전반에 원활하게 확장하는 AI 네이티브 스토리지 인프라입니다. STX는 NVIDIA Vera CPU와 NVIDIA ConnectX-9 SuperNIC을 결합한 BlueField-4로 구동되죠. 이를 통해 거대 언어 모델(LLM)과 에이전틱 AI 워크플로우에서 생성되는 대규모 키-값(KV) 캐시 데이터를 저장하고 검색하는 데 최적화된 고대역폭 공유 계층을 제공합니다.

NVIDIA DOCA Memos™는 BlueField-4 스토리지를 극대화하는 새로운 도카 프레임워크로, 전용 KV 캐시 스토리지 처리를 통해 추론 처리량을 최대 5배까지 높이고, 일반 스토리지 아키텍처 대비 전력 효율을 크게 향상시킵니다. 그 결과, POD 전반에 걸친 컨텍스트를 통해 AI 에이전트와의 더 빠른 멀티턴(multi-turn) 상호작용을 구현하고, AI 서비스의 확장성과 전체 인프라 활용도를 향상시키죠.

미스트랄 AI(Mistral AI) 공동 창립자 겸 CTO인 Timothée Lacroix는 “NVIDIA BlueField-4 STX 랙 규모 컨텍스트 메모리 스토리지 시스템은 에이전틱 AI 개발을 기하급수적으로 확장하는 데 필요한 핵심적인 성능 향상을 지원할 것입니다. STX는 AI 에이전트 메모리를 위해 특별히 설계된 새로운 스토리지 계층을 제공하는데요. 이로써, 모델이 방대한 데이터셋을 추론할 때에도 일관성과 속도를 유지할 수 있는 이상적인 솔루션입니다”라고 말했습니다.

NVIDIA Spectrum-6 SPX 이더넷 랙

Spectrum-6 SPX 이더넷은 AI 팩토리 전반의 동서(east-west) 트래픽을 가속하도록 설계됐습니다. Spectrum-X 이더넷 또는 NVIDIA Quantum-X800 InfiniBand 스위치와 함께 구성할 수 있으며, 대규모 환경에서 저지연·고처리량의 랙 간 연결을 제공합니다.

광학 모듈이 통합된 Spectrum-X 이더넷 Photonics는 기존 플러그형 트랜시버 대비 최대 5배 높은 광 전력 효율과 10배 높은 복원력을 제공합니다.

복원력과 에너지 효율성 향상

200개 이상의 데이터센터 인프라 파트너와 함께 Vera Rubin을 위한 NVIDIA DSX 플랫폼도 발표됐습니다. 여기에는 DSX Max-Q가 포함돼 있는데요. 이는 AI 팩토리 전체에 동적 전력 프로비저닝(provisioning)을 통해, 전력이 고정된 데이터센터에서 최대 30% 더 많은 AI 인프라 구축을 지원합니다. 새로운 DSX Flex 소프트웨어는 AI 팩토리를 전력망 유연성을 갖춘 에셋으로 전환해, 100기가와트 규모의 유휴 전력을 활용할 수 있습니다.

또한 Vera Rubin DSX AI 팩토리 레퍼런스 디자인도 공개됐습니다. 와트당 토큰 수와 전체 처리량을 극대화하고, 시스템 복원력을 높이며, 초기 프로덕션까지 걸리는 시간을 단축하는 공동 설계 AI 인프라의 블루프린트를 제공합니다. 이 아키텍처는 컴퓨팅, 네트워킹, 스토리지, 전력, 냉각을 긴밀하게 통합함으로써, 에너지 효율성을 높이고 AI 팩토리가 지속적인 고강도 워크로드 환경에서도 최대 가동 시간을 유지하며 안정적으로 확장될 수 있도록 지원합니다.

광범위한 생태계 지원

Vera Rubin 기반 제품은 올해 하반기부터 파트너사를 통해 제공될 예정입니다. 여기에는 아마존 웹 서비스(Amazon Web Services), 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure) 등 주요 클라우드 제공업체와 함께, NVIDIA 클라우드 파트너(Cloud Partners)인 코어위브(CoreWeave), 크루소(Crusoe), 람다(Lambda), 네비우스(Nebius), 엔스케일(Nscale), 투게더 AI(Together AI)가 포함됩니다.

글로벌 시스템 제조업체인 시스코(Cisco), 델 테크놀로지스(Dell Technologies), HPE, 레노버(Lenovo), 슈퍼마이크로(Supermicro)는 Vera Rubin 기반 제품을 탑재한 다양한 서버를 공급할 예정입니다. 여기에는 에이브레스(Aivres), 에이수스(ASUS), 폭스콘(Foxconn), 기가바이트(GIGABYTE), 인벤텍(Inventec), 페가트론(Pegatron), 퀀타 클라우드 테크놀로지(Quanta Cloud Technology, QCT), 위스트론(Wistron), 위윈(Wiwynn) 등도 포함됩니다.

앤트로픽, 메타(Meta), 미스트랄 AI, 오픈AI를 포함한 AI 연구소와 최첨단 모델 개발사들은 NVIDIA Vera Rubin 플랫폼을 활용해 더 크고 성능이 뛰어난 모델을 훈련시키고, 이전 GPU 세대보다 더 낮은 지연 시간과 비용으로 긴 컨텍스트 멀티모달 시스템을 제공할 계획입니다.