NVIDIA Blackwell, 새로운 벤치마크에서 업계의 기준을 높이다

by NVIDIA Korea
NVIDIA Blackwell, 새로운 벤치마크에서 업계의 기준을 높이다
  • NVIDIA Blackwell은 새로운 세미애널리시스(SemiAnalysis) 인퍼런스MAX(InferenceMAX) v1 벤치마크에서 최고의 성능 효율성을 입증하며 압도적 성과를 거뒀습니다.
  • 인퍼런스MAX v1은 다양한 모델과 실제 시나리오에서 총 컴퓨팅 비용을 측정하는 최초의 독립형 벤치마크입니다.
  • 최고 투자수익률(return on investment, ROI): NVIDIA GB200 NVL72는 500만 달러의 투자로 7,500만 달러의 DSR1 토큰 수익, 즉 15배의 투자 수익을 창출하며 가공할 만한 AI 팩토리 종합 효율성을 제공합니다.
  • 최저 총소유비용(total cost of ownership, TCO): NVIDIA B200 소프트웨어 최적화는 gpt-oss에서 토큰 100만 개당 2센트의 수익을 달성해 단 2개월 만에 토큰당 비용을 5배 절감합니다.
  • 최고 처리량과 상호작용: NVIDIA B200은 최신 NVIDIA TensorRT-LLM 스택을 사용해 gpt-oss에서 GPU당 1초 60,000개의 토큰과 사용자별 1초 1,000개의 토큰을 처리하는 엄청난 속도를 자랑합니다.

AI가 단발성 응답을 넘어 복잡한 추론으로 진화함에 따라, 추론에 대한 수요와 그 기반이 되는 경제성이 폭발적으로 증가하고 있는데요.

새로운 독립형 인퍼런스MAX v1 벤치마크는 처음으로 실제 시나리오 전반에 걸친 총 컴퓨팅 비용을 측정했습니다. 그 결과, NVIDIA Blackwell 플랫폼이 압도적인 성능과 AI 팩토리를 위한 최고의 종합 효율성을 제공하며 시장을 석권했습니다.

500만 달러 규모의 GB200 NVL72 투자로 7,500만 달러의 토큰 수익 창출 가능

NVIDIA GB200 NVL72 시스템에 500만 달러를 투자하면 7,500만 달러의 토큰 수익을 창출할 수 있습니다. 이는 15배의 ROI로, 추론의 새로운 경제학이라고 할 수 있죠.

NVIDIA의 하이퍼스케일과 고성능 컴퓨팅 부문 부사장 이안 벅(Ian Buck)은 “추론은 AI가 매일 가치를 창출하는 영역입니다. 이번 결과는 NVIDIA의 풀스택 접근 방식이 고객에게 대규모 AI 배포에 필요한 성능과 효율성을 제공함을 보여줍니다”라고 말했습니다.

인퍼런스MAX v1 등장

인퍼런스MAX v1는 세미애널리시스가 발표한 새로운 벤치마크로, Blackwell의 추론 성능 리더십을 다시 한번 입증하는 최신 사례입니다. 이 벤치마크는 인기 모델들을 주요 플랫폼에서 실행하고, 다양한 사용 사례에 대한 성능을 측정하며, 누구나 검증 가능한 결과를 공개합니다.

이러한 벤치마크가 중요한 이유는 현대 AI는 단순한 속도만의 문제가 아닌 효율성과 대규모 운영 경제성이 핵심이기 때문입니다. AI 모델이 단발성 응답에서 다단계 추론과 도구 활용 방식으로 전환됨에 따라, 쿼리당 생성되는 토큰 수가 크게 늘어나고, 이에 따라 연산 요구량이 급격히 증가하고 있습니다.

NVIDIA의 오픈소스 협업은 오픈AI(OpenAI)(gpt-oss 120B), 메타(Meta)(라마 3 70B)(Llama 3 70B), 딥시크 AI(DeepSeek AI)(딥시크 R1)와 함께 진행되고 있는데요. 이를 통해 해당 커뮤니티 기반 모델들이 최첨단 추론 능력과 효율성을 끌어올리고 있음을 보여줍니다.

NVIDIA는 이들 선도적인 모델 개발사와 오픈소스 커뮤니티와 협력해, 최신 모델들이 세계 최대 규모의 AI 추론 인프라에서 최적의 성능을 발휘할 수 있도록 보장합니다. 이러한 노력에는 혁신의 공유로 모두의 발전을 가속화하는 개방형 생태계를 구축하려는 의지가 반영돼 있죠.

또한, 플래시인퍼(FlashInfer), SGLang, vLLM 커뮤니티와의 긴밀한 협업을 통해, 이러한 모델들이 대규모 환경에서 원활히 작동하도록 지원하는 커널과 런타임 개선이 공동으로 개발되고 있습니다.

소프트웨어 최적화로 지속적인 성능 향상 실현

NVIDIA는 하드웨어, 소프트웨어 공동 설계 최적화를 통해 지속적으로 성능을 개선하고 있는데요. NVIDIA TensorRT LLM 라이브러리를 탑재한 NVIDIA DGX Blackwell B200 시스템에서의 초기 gpt-oss-120b 성능은 이미 업계 최고 수준이었습니다. 그러나, NVIDIA 팀과 커뮤니티는 오픈소스 거대 언어 모델(large language model, LLM)을 위해 TensorRT LLM을 대폭 최적화했습니다.

NVIDIA Blackwell B200 NVL8, GPU당 최대 6만 TPS 처리량 달성

TensorRT LLM v1.0 출시는 대규모 AI 모델의 속도와 반응성을 한 단계 더 끌어올린 핵심적인 돌파구입니다.

고급 병렬화 기술을 적용한 이 버전은 B200 시스템과 NVIDIA NVLink Switch의 1,800GB/s 양방향 대역폭을 활용해 gpt-oss-120b 모델의 성능을 획기적으로 향상시켰습니다.

또한 새로 공개된 gpt-oss-120b-Eagle3-v2 모델은 한 번에 여러 토큰을 예측하는 추측 디코딩(speculative decoding) 방식을 도입했죠.

이 기법은 지연을 줄이고 더 빠른 결과를 제공해, 사용자당 100토큰 처리 속도(Tokens Per Second, TPS)로 처리량을 3배 향상시켰는데요. 이로써 GPU당 처리 속도도 토큰 6,000개에서 30,000개로 대폭 향상됐습니다.

라마 3.3 70B와 같은 밀집형(dense) AI 모델은 많은 파라미터 수와 추론 시 모든 파라미터가 동시에 활용된다는 점 때문에 상당한 컴퓨팅 자원이 필요합니다. 이 영역에서 NVIDIA Blackwell B200은 인퍼런스MAX v1 벤치마크에서 새로운 성능 표준을 제시했다고 볼 수 있습니다.

NVIDIA Blackwell, GPU당 1만 TPS 처리로 호퍼 대비 4배 성능 향상

Blackwell은 GPU당 10,000 TPS 이상, 사용자당 상호작용성 기준으로 50 TPS를 제공하며, 이는 NVIDIA H200 GPU 대비 GPU 당 처리량이 4배 더 높습니다.

성능 효율성이 창출하는 가치

와트당 토큰 수, 100만 토큰당 비용, 사용자당 TPS와 같은 지표는 처리량만큼이나 중요한데요. 실제로 전력이 제한된 AI 팩토리의 경우, Blackwell은 이전 세대 대비 메가와트당 10배 높은 처리량을 제공하며, 이는 더 높은 토큰 수익으로 이어집니다.

전력이 제한된 AI 팩토리의 매출을 10배 향상시키는 Blackwell

토큰당 비용은 AI 모델 효율성을 평가하는 핵심 지표로, 운영 비용에 직접적인 영향을 끼칩니다. NVIDIA Blackwell 아키텍처는 이전 세대 대비 100만 토큰당 비용을 15배까지 낮춰 상당한 비용 절감 효과를 거두며, AI 배포와 혁신을 더욱 확대했습니다.

토큰 비용 15배 절감으로 AI 배포 확대 추진

다차원적 성능

인퍼런스MAX는 데이터센터 처리량과 반응성 등 다양한 요소 간의 최적의 균형을 보여주는 곡선인 파레토 프론티어(Pareto frontier) 접근법을 사용해 성능을 매핑합니다.

이는 단순한 차트가 아닌 NVIDIA Blackwell이 비용, 에너지 효율성, 처리량, 반응성 등 생산 우선순위를 어떻게 균형 있게 조정하는지 보여줍니다. 이러한 균형은 실제 워크로드에서 최고의 ROI를 보장하죠.

단일 모드나 특정 시나리오에만 최적화된 시스템은 단독으로는 높은 성능을 보일 수도 있지만, 경제적 측면에서는 한계가 있습니다. Blackwell의 풀스택 설계는 가장 중요한 생산 환경에서 효율성과 가치를 제공합니다.

이 곡선이 어떻게 구축되는지, TCO와 서비스 수준 협약(service-level agreement, SLA) 계획에 왜 중요한지는 NVIDIA 테크니컬 블로그에서 더 자세히 알아보세요.

가능하게 하는 요소들

Blackwell의 리더십은 극단적인 하드웨어, 소프트웨어 공동 설계에서 비롯됩니다. 이는 속도, 효율, 확장성을 위해 설계된 풀스택 아키텍처입니다.

  • Blackwell 아키텍처의 주요 특징
    • NVFP4 저정밀도 포맷: 정확도 손실 없이 효율성 제공
    • 5세대 NVIDIA NVLink: 72개의 Blackwell GPU를 하나의 거대한 GPU처럼 연결
    • NVLink Switch: 고급 Tensor, 전문가, 데이터 병렬 어텐션 알고리즘을 통해 고병렬 처리 구현
  • 연간 하드웨어 케이던스와 지속적인 소프트웨어 최적화로 NVIDIA는 소프트웨어만 출시했던 때보다 Blackwell 성능을 두 배 이상 향상
  • 최고 성능을 위해 최적화된 NVIDIA TensorRT-LLM, NVIDIA Dynamo, SGLang, vLLM 오픈소스 추론 프레임워크
  • 수억 개의 GPU가 설치 기반으로 700만 명의 CUDA 개발자와 함께 1,000개 이상의 오픈소스 프로젝트에 기여하는 방대한 생태계

더 큰 그림

AI는 파일럿 단계를 넘어, 실시간으로 데이터를 토큰과 의사결정으로 전환하는 인텔리전스 제조 인프라인 AI 팩토리로 진화하고 있습니다.

공개되고 자주 업데이트되는 벤치마크는 팀이 정보에 기반한 플랫폼을 선택하고, 토큰당 비용, 지연 시간 SLA, 워크로드 변화에 따른 활용도 등을 조정할 수 있도록 지원합니다.

NVIDIA의 Think SMART 프레임워크는 이러한 변화 속에서 기업이 방향을 잡을 수 있도록 지원합니다. 또한, NVIDIA의 풀스택 추론 플랫폼이 실제 ROI를 창출하고, 성능을 수익으로 전환하는 기반이 됩니다.