NVIDIA Blackwell, MLPerf 추론 테스트 데뷔에서 생성형 AI의 새로운 표준 설정

NVIDIA Blackwell GPU를 사용한 첫 번째 테스트에서는 Llama 2 70B에서 최대 4배 더 높은 성능을 제공하며, NVIDIA Hopper 아키텍처는 업계 AI 벤치마크에서 큰 폭의 향상을 제공합니다.
by NVIDIA Korea
NVIDIA Blackwell, MLPerf 추론 테스트 데뷔에서 생성형 AI의 새로운 표준 설정

기업들이 생성형 AI를 도입하고 새로운 서비스를 시장에 출시하기 위해 경쟁하면서 데이터센터 인프라에 대한 니즈가 그 어느 때보다 커지고 있습니다. 거대 언어 모델을 학습하는 것도 하나의 과제이지만, LLM 기반 실시간 서비스를 제공하는 것도 또 다른 과제입니다.

최신 MLPerf 업계 벤치마크인 Inference v4.1에서 NVIDIA 플랫폼은 모든 데이터센터 테스트에서 선도적인 성능을 보여주었습니다. 곧 출시될 NVIDIA Blackwell 플랫폼은 2세대 트랜스포머 엔진과 FP4 Tensor 코어를 사용해 MLPerf의 가장 큰 LLM 워크로드인 라마 2 70B에서 NVIDIA H100 Tensor 코어 GPU보다 최대 4배 더 뛰어난 성능을 보여줬습니다.

NVIDIA H200 Tensor 코어 GPU는 데이터센터 부문의 모든 벤치마크에서 뛰어난 결과를 기록했으며, 최근 벤치마크에 추가된 Mixtral 8x7B 전문가 혼합(MoE) LLM은 토큰당 129억 개의 파라미터가 활성화되어 총 467억 개의 파라미터를 특징으로 합니다.

MoE 모델은 단일 배포에서 다양한 질문에 답하고 더 다양한 작업을 수행할 수 있기 때문에 LLM 배포에 더 많은 다양성을 제공하는 방법으로 인기를 얻고 있습니다. 또한 추론당 소수의 전문가만 활성화하므로 비슷한 규모의 고밀도 모델보다 훨씬 빠르게 결과를 제공하기 때문에 더 효율적입니다.

LLM의 지속적인 성장으로 인해 수많은 추론 요청을 처리하기 위해 더 많은 컴퓨팅이 필요해지고 있습니다. 최첨단 LLM을 제공하기 위한 가장 낮은 실시간 지연 시간 요구 사항을 충족하면서도 가능한 한 많은 사용자에게 서비스를 제공하려면 멀티 GPU 컴퓨팅이 필수입니다. NVIDIA NVLink와 NVSwitchNVIDIA Hopper 아키텍처를 기반으로 GPU 간의 고대역폭 통신을 제공하며, 실시간, 비용 효율적인 대규모 모델 추론에 상당한 이점을 제공합니다. Blackwell 플랫폼은 72개의 GPU를 갖춘 더 큰 NVLink 도메인을 통해 NVLink Switch의 기능을 더욱 확장할 것입니다.

NVIDIA외에도 ASUSTek, Cisco, Dell Technologies, Fujitsu, Giga Computing, Hewlett Packard Enterprise (HPE), Juniper Networks, Lenovo, Quanta Cloud Technology 그리고 Supermicro 등 총 10개의 NVIDIA 파트너사가 모두 MLPerf 추론을 제출하여 NVIDIA 플랫폼의 광범위한 가용성을 강조했습니다.

끊임없는 소프트웨어 혁신

NVIDIA 플랫폼은 지속적인 소프트웨어 개발을 통해 매월 성능과 기능을 개선하고 있습니다.

최신 추론 테스트 라운드에서 NVIDIA Hopper 아키텍처, NVIDIA Jetson 플랫폼, NVIDIA Triton 추론 서버를 포함한 NVIDIA 제품은 비약적인 성능 향상을 보였습니다.

NVIDIA H200 GPU는 이전 라운드에 비해 최대 27% 더 뛰어난 AI 추론 성능을 제공했으며, 이는 고객이 NVIDIA 플랫폼에 대한 투자를 통해 시간이 지남에 따라 얻을 수 있는 부가가치를 강조합니다.

NVIDIA AI 플랫폼의 일부이자 NVIDIA AI Enterprise 소프트웨어와 함께 제공되는 Triton 추론 서버는 프레임워크별 추론 서버를 단일 통합 플랫폼으로 통합하는 데 도움이 되는 완전한 기능을 갖춘 오픈 소스 추론 서버입니다. 이를 통해 프로덕션 환경에서 AI 모델을 제공하는 총소유비용(TCO, Total Cost of Ownership)을 낮추고 모델 배포 시간을 몇 달에서 몇 분으로 단축할 수 있습니다.

이번 MLPerf에서 Triton 추론 서버는 NVIDIA의 베어메탈 출품작과 거의 동등한 성능을 보여줌으로써 조직이 더 이상 풍부한 기능을 갖춘 프로덕션급 AI 추론 서버 사용과 최고 처리량 성능 달성 중 하나를 선택할 필요가 없음을 보여주었습니다.

엣지로 이동하기

엣지에 배포된 생성형 AI 모델은 이미지 및 비디오와 같은 센서 데이터를 강력한 컨텍스트 인식을 통해 실행 가능한 실시간 인사이트로 변환할 수 있습니다. 엣지 AI와 로보틱스를 위한 NVIDIA Jetson 플랫폼은 LLM, 비전 트랜스포머, 스테이블 디퓨전 등 모든 종류의 모델을 로컬에서 실행할 수 있는 독보적인 성능을 갖추고 있습니다.

이번 MLPerf 벤치마크에서 NVIDIA Jetson AGX Orin 시스템 온 모듈은 GPT-J LLM 워크로드에서 이전 라운드 대비 6.2배 이상의 처리량 향상과 2.4배의 지연 시간 개선을 달성했습니다. 이제 개발자는 특정 활용 사례를 위해 개발하는 대신 이 범용 60억 개 파라미터 모델을 사용하여 인간의 언어와 원활하게 인터페이스하여 엣지에서 생성형 AI를 혁신시킬 수 있습니다.

모든 부문에서 입증한 성능 리더십

이번 MLPerf 추론은 데이터센터에서 엣지까지 모든 벤치마크의 워크로드에서 가장 혁신적인 AI 기반 애플리케이션과 서비스를 슈퍼차지하는 NVIDIA 플랫폼의 다양성과 선도적인 성능을 보여주었습니다. 이 결과에 대해 자세히 알아보려면 기술 블로그를 참조하세요.

H200 GPU 기반 시스템은 현재 클라우드 서비스 제공업체 중 최초로 일반 출시를 발표한 CoreWeave와 서버 제조업체인 ASUS, Dell Technologies, HPE, QCT 및 Supermicro에서 구입할 수 있습니다.

소프트웨어 제품 정보에 관한 자세한 내용은 공지를 참조하세요.