추론 성능은 AI 팩토리의 경제성에 직접적인 영향을 미치기 때문에 매우 중요합니다. AI 팩토리 인프라의 처리량이 높을수록 더 많은 토큰을 고속으로 생성할 수 있어 수익이 증가하고 총소유비용(TCO)은 감소하며, 시스템의 전반적인 생산성이 향상됩니다.
NVIDIA GTC에서 첫 공개된 지 반년도 채 지나지 않아, NVIDIA Blackwell Ultra 아키텍처 기반의 GB300 NVL72 랙 규모 시스템은 MLPerf Inference v5.1의 새로운 복잡한 추론 벤치마크에서 기록을 세우며, Blackwell 기반 GB200 NVL72 시스템 대비 최대 45% 더 높은 DeepSeek-R1 추론 처리량을 제공합니다.
Blackwell Ultra는 기존 Blackwell 아키텍처의 성공을 기반으로 개발되었으며, NVFP4 AI 연산 성능은 1.5배, attention-layer 가속 성능은 2배 향상되었고, GPU당 최대 288GB의 HBM3e 메모리를 탑재하였습니다.
NVIDIA 플랫폼은 MLPerf Inference v5.1에 새롭게 추가된 모든 데이터센터 벤치마크 — DeepSeek-R1, Llama 3.1 405B Interactive, Llama 3.1 8B, Whisper — 에서 성능 기록을 세웠으며, 기존의 모든 MLPerf 데이터센터 벤치마크에서도 여전히 GPU당 최고 성능 기록을 유지하고 있습니다.
모든 요소를 집약한 성능
최신 벤치마크 성능을 달성하는 데 있어 풀스택 공동 설계는 중요한 역할을 합니다. Blackwell과 Blackwell Ultra는 NVIDIA가 설계한 4비트 부동소수점 형식인 NVFP4를 위한 하드웨어 가속 기능을 탑재하고 있으며, 이 포맷은 다른 FP4 형식보다 더 우수한 정확도를 제공하면서도 고정밀 포맷과 유사한 정확도를 유지합니다.
NVIDIA TensorRT Model Optimizer 소프트웨어는 DeepSeek-R1, Llama 3.1 405B, Llama 2 70B, Llama 3.1 8B 모델을 NVFP4로 양자화하였습니다. 오픈소스 라이브러리인 NVIDIA TensorRT-LLM과 함께 이 최적화는 Blackwell과 Blackwell Ultra가 높은 성능을 유지하면서도 엄격한 정확도 요구사항을 충족하도록 지원합니다.
대규모 언어 모델 추론은 실행 특성이 다른 두 가지 작업으로 구성됩니다. 첫 번째는 사용자 입력을 처리해 첫 토큰을 생성하는 context 처리이며, 두 번째는 이후 토큰을 생성하는 generation 처리입니다.
‘분리형 서빙(disaggregated serving)’ 기술은 context와 generation 작업을 분리하여 각각 최적화함으로써 전체 처리량을 극대화합니다. 이 기술은 Llama 3.1 405B Interactive 벤치마크에서 기록적인 성능을 달성하는 데 핵심적인 역할을 하였으며, GB200 NVL72 시스템은 기존 방식으로 벤치마크를 실행한 NVIDIA DGX B200 서버의 Blackwell GPU 대비 GPU당 성능을 약 50% 향상시켰습니다.
이번 라운드에서는 NVIDIA가 새로운 추론 프레임워크인 NVIDIA Dynamo를 사용하여 처음으로 벤치마크 결과를 제출하였습니다.
NVIDIA의 파트너사들 — 클라우드 서비스 제공업체 및 서버 제조업체 포함 — 또한 NVIDIA Blackwell 및/또는 Hopper 플랫폼을 기반으로 뛰어난 결과를 제출하였습니다. 참여 기업에는 Azure, Broadcom, Cisco, CoreWeave, Dell Technologies, Giga Computing, HPE, Lambda, Lenovo, Nebius, Oracle, Quanta Cloud Technology, Supermicro, University of Florida가 포함됩니다.
NVIDIA AI 플랫폼의 업계 최고 수준 추론 성능은 주요 클라우드 제공업체와 서버 제조업체를 통해 제공됩니다. 이는 복잡한 AI 애플리케이션을 도입하는 조직에 더 낮은 TCO와 더 높은 투자 수익률을 제공합니다.
MLPerf Inference v5.1에 대한 NVIDIA 테크블로그에서 이러한 풀스택 기술에 대해 더 확인해보세요. NVIDIA DGX Cloud Performance Explorer를 방문하여 NVIDIA의 성능, 모델 TCO, 맞춤형 리포트를 확인하시기 바랍니다.