AI 추론의 시대를 여는 ‘NVIDIA Blackwell Ultra’ AI 팩토리 플랫폼 공개

NVIDIA Blackwell AI 팩토리 플랫폼의 차세대 버전인 NVIDIA Blackwell Ultra를 공개합니다. 이 플랫폼은 AI 추론(reasoning)을 용이하게 합니다.

NVIDIA Blackwell Ultra는 추론 중 추가적인 계산을 할당해 정확도를 개선하는 기법인 테스트 타임 스케일링(Test-Time Scaling, TTS)으로 추론과 훈련을 강화합니다. 이를 통해 AI 추론이나 에이전틱 AI(Agentic AI), 물리 AI와 같은 애플리케이션을 어디서나 가속할 수 있습니다.

Blackwell Ultra는 작년 소개된 혁신 기술인 Blackwell 아키텍처를 기반으로 하며, NVIDIA GB300 NVL72 랙 스케일 솔루션과 NVIDIA HGX™ B300 NVL16 시스템을 포함하죠. GB300 NVL72는 NVIDIA GB200 NVL72 대비 1.5배 뛰어난 AI 성능을 제공합니다. 뿐만 아니라 NVIDIA Hopper™ 시스템으로 구축된 AI 팩토리보다 Blackwell의 수익 기회를 50배 증가시킵니다.

NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “AI는 엄청난 도약을 이룩했습니다. 이제 추론과 에이전틱 AI가 훨씬 더 많은 컴퓨팅 성능을 요구하고 있습니다. 우리는 바로 이 순간을 위해 Blackwell Ultra를 설계했습니다. 이 다목적 플랫폼은 사전, 사후 훈련과 추론형 AI의 추론을 더욱 쉽고 효율적으로 만듭니다”고 설명했습니다.

NVIDIA Blackwell Ultra로 AI 추론 지원

NVIDIA GB300 NVL72는 Blackwell Ultra GPU 72개와 Arm의 네오버스(Neoverse) 기반 NVIDIA Grace™ CPU 36개를 랙 스케일 디자인으로 연결했습니다. 이는 TTS용으로 구축된 거대한 단일 GPU로 작동하죠. AI 모델들은 NVIDIA GB300 NVL72 플랫폼의 향상된 컴퓨팅에 액세스해 문제에 대한 다양한 솔루션을 탐색하고, 복잡한 요청을 여러 단계로 세분화해 보다 고품질의 응답을 얻을 수 있습니다.

GB300 NVL72는 또한 진화하는 워크로드를 위해 소프트웨어, 서비스, AI 전문 지식으로 성능을 최적화하는 선도적인 클라우드의 엔드 투 엔드 완전 관리형 AI 플랫폼인 NVIDIA DGX™ Cloud에서 사용 가능할 것으로 예상됩니다. DGX GB300 시스템이 탑재된 NVIDIA DGX SuperPOD™은 GB300 NVL72 랙 설계를 사용해 고객에게 턴키 AI 팩토리를 제공합니다.

NVIDIA HGX B300 NVL16은 거대 언어 모델(LLM)에서 11배 빠른 추론, 7배 향상된 컴퓨팅, 4배 많은 메모리를 제공합니다. 이를 통해 AI 추론처럼 가장 복잡한 워크로드에서도 획기적인 성능을 보여주죠.

Blackwell Ultra 플랫폼은 다음과 같은 애플리케이션에 적합합니다.

에이전틱 AI: 정교한 추론과 반복 계획을 통해 복잡한 다단식 문제들을 자율적으로 해결합니다. AI 에이전트 시스템은 명령을 따르는 것을 넘어 특정한 목표 달성을 위해 추론, 계획, 행동할 수 있습니다.
물리 AI: 로봇이나 자율주행 차량처럼 대규모 애플리케이션의 훈련을 위한 합성 데이터와 사실적인 영상을 실시간으로 생성할 수 있게 지원합니다.

최적의 성능을 위한 NVIDIA 스케일 아웃 인프라

고급 스케일 아웃(Scale-out) 네트워킹은 최고의 성능을 제공하며, 지연 시간과 지터를 줄일 수 있는 AI 인프라의 중요한 구성 요소입니다.

Blackwell Ultra 시스템은 NVIDIA Spectrum-X™ Ethernet, NVIDIA Quantum-X800 InfiniBand 플랫폼과 원활히 통합됩니다. 이때 시스템 내 GPU당 800 Gb/s의 데이터 처리량을 제공하며, NVIDIA ConnectX-8 SuperNIC로 연결되죠. 이를 통해 동급 최고의 원격 직접 메모리 액세스 기능을 제공해, AI 팩토리와 클라우드의 데이터센터가 병목 현상 없이 AI 추론 모델을 구동할 수 있도록 지원합니다.

Blackwell Ultra 시스템에도 탑재된 NVIDIA BlueField®-3 DPU는 멀티 테넌트 네트워킹, GPU 컴퓨팅 탄력성, 데이터 액세스 가속화, 실시간 사이버보안 위협 탐지를 지원합니다.

세계적 기술 선도업체의 Blackwell Ultra 도입

Blackwell Ultra 기반 제품은 2025년 하반기부터 파트너들을 통해 구매가 가능할 예정입니다.

다음의 기업들이 Blackwell Ultra 기반의 다양한 제품들을 선보일 예정입니다. 시스코(Cisco), 델 테크놀로지스(Dell Technologies), 휴렛 팩커드 엔터프라이즈(Hewlett Packard Enterprise, HPE), 레노버(Lenovo), 슈퍼마이크로(Supermicro) 에이브레스(Aivres), 애즈락랙(ASRock Rack), 에이수스(ASUS), 에비덴(Eviden), 폭스콘(Foxconn), 기가바이트(GIGABYTE), 인벤텍(Inventec), 페가트론(Pegatron), QCT, 위스트론(Wistron), 위윈(Wiwynn) 등

또한, 클라우드 서비스 제공업체인 아마존 웹 서비스(Amazon Web Services, AWS), 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), 오라클 클라우드 인프라(Oracle Cloud Infrastructure)를 비롯해, GPU 클라우드 제공업체인 코어위브(CoreWeave), 크루소(Crusoe), 람다(Lambda), 네비우스(Nebius), 엔스케일(Nscale), 요타(Yotta), YTL이 Blackwell Ultra 기반 인스턴스를 가장 앞서 선보일 예정입니다.

AI 병목 현상 줄이는 NVIDIA 소프트웨어 혁신

NVIDIA Blackwell 제품 포트폴리오 전체는 풀스택 NVIDIA AI 플랫폼의 지원을 받습니다. 오픈 소스 추론 프레임워크인 NVIDIA Dynamo는 추론형 AI 서비스를 강화해 처리량을 늘리죠. 동시에 테스트 타임 컴퓨팅(Test-Time Compute)의 확장에 가장 효과적인 솔루션을 제공해 응답 시간과 모델 서빙 비용을 절감합니다.

NVIDIA Dynamo는 추론형 AI 모델을 배포하는 AI 팩토리의 토큰 수익 창출을 극대화하고자 고안된 AI 추론 서빙 소프트웨어입니다. 수천 개에 달하는 GPU에서 추론 통신을 조정, 가속한 뒤 분리 서빙 방식을 활용해 거대 언어 모델의 처리와 생성 단계들을 서로 다른 GPU에 나누는데요. 이렇게 하면 각 단계에서 특별히 요구되는 사항에 맞춰 독립적 최적화가 가능하고, GPU 리소스 활용을 최대화할 수 있습니다.

Blackwell 시스템은 NVIDIA Llama Nemotron 추론형 모델이나 NVIDIA AI-Q Blueprint를 실행하는 데 적합하며, 프로덕션급 AI를 위한 NVIDIA AI Enterprise 소프트웨어 플랫폼에서 지원됩니다. NVIDIA AI Enterprise에는 NVIDIA NIM™ 마이크로서비스와 더불어 기업이 NVIDIA 가속 클라우드, 데이터센터, 워크스테이션에 배포할 수 있는 AI 프레임워크, 라이브러리, 도구가 포함돼 있습니다.

Blackwell 플랫폼이 구축된 NVIDIA의 에코시스템은 강력한 개발 도구와 NVIDIA CUDA-X™ 라이브러리, 6백만 명이 넘는 개발자, 수천 개의 GPU에서 성능을 확장해 나가는 4,000개 이상의 애플리케이션으로 구성돼 있습니다.

NVIDIA GTC 키노트를 통해 Blackwell Ultra에 대한 보다 자세한 정보를 확인해 보세요.