텍스트, 컴퓨터 코드, 단백질 구조, 요약, 비디오, 3D 그래픽까지 다양한 작업을 수행하는 생성형 AI 애플리케이션은 이를 뒷받침하는 거대 언어 모델(LLM)을 효율적으로 훈련하기 위해 데이터센터 수준의 가속 컴퓨팅이 필수적입니다.
MLPerf 트레이닝 4.1 업계 벤치마크에서 NVIDIA Blackwell 플랫폼은 모든 워크로드에서 뛰어난 성과를 기록했으며, Llama 2 70B 파인 튜닝과 GPT-3 175B 사전 훈련을 포함한 LLM 벤치마크에서 GPU당 성능이 최대 2.2배 향상되었습니다.
또한, NVIDIA Hopper 플랫폼을 기반으로 한 결과는 모든 벤치마크에서 최상위 성능을 지속적으로 유지하고 있으며, 특히 GPT-3 175B 벤치마크에서는 11,616개의 Hopper GPU를 활용한 기록으로 주목받고 있습니다.
Blackwell을 통한 도약과 한계
MLCommons 컨소시엄에 제출된 최초의 Blackwell 트레이닝은 업계 참여자들을 위해 표준화되고 편향되지 않으며 엄격한 동료 검토를 거친 테스트로, 이 아키텍처가 생성형 AI 훈련 성능을 얼마나 혁신적으로 발전시키고 있는지를 잘 보여줍니다.
MLCommons 컨소시엄에 제출된 첫 번째 Blackwell 트레이닝 결과는 이 아키텍처가 생성형 AI 훈련 성능을 어떻게 발전시키고 있는지를 보여줍니다.(MLCommons는 업계 종사자들을 위해 표준화되고 편향되지 않으며 엄격한 동료 검토를 거친 테스트를 제공합니다.)
특히 Blackwell 아키텍처에는 텐서 코어의 효율성을 극대화하는 새로운 커널이 포함되어 있습니다. 이 커널은 딥 러닝 알고리즘의 핵심적인 수학 연산, 예를 들어 행렬 곱 연산을 위해 최적화된 특수 목적의 연산을 수행합니다.
Blackwell은 GPU당 컴퓨팅 처리량이 더욱 향상되었으며, 대용량·고대역폭의 메모리를 통해 GPT-3 175B 벤치마크를 훨씬 적은 수의 GPU로 실행하면서도 뛰어난 성능을 보여줍니다.
예를 들어, HBM3e 메모리의 더 높은 용량과 대역폭 덕분에 GPU당 성능 손실 없이 64개의 Blackwell GPU만으로 GPT-3 LLM 벤치마크를 실행할 수 있었습니다. 동일한 작업을 Hopper로 실행하려면 256개의 GPU가 필요했던 점과 비교하면, 이는 매우 효율적인 결과입니다.
Blackwell 트레이닝 결과는 이전에 발표된 MLPerf 추론 4.1의 성과를 이어가며, LLM 추론 성능에서 Hopper 세대 대비 최대 4배 향상된 결과를 보여줬습니다. 특히 FP4 정밀도와 NVIDIA QUASAR 양자화 시스템을 통해 벤치마크의 정확도 요구를 충족하면서도 강력한 성능을 유지했습니다.
끊임없는 최적화
NVIDIA 플랫폼은 지속적인 소프트웨어 개발을 통해 다양한 프레임워크, 모델, 애플리케이션에서 트레이닝과 추론의 성능과 기능을 꾸준히 향상시키고 있습니다.
이번 MLPerf 트레이닝 제출에서는 Hopper 아키텍처가 벤치마크 도입 이후 GPU당 GPT-3 175B 훈련 성능을 1.3배 향상시켰습니다.
Hopper GPU는 작년과 비교해 GPT-3 175B 벤치마크에서 확장성과 성능이 3배 이상 개선되었습니다. 여기에 더해 NVIDIA는 소프트웨어 최적화를 통해 동일한 수의 Hopper GPU로 Llama 2 70B LoRA 파인 튜닝 벤치마크에서 성능을 26% 끌어올렸습니다.
NVIDIA의 가속 컴퓨팅 플랫폼 최적화 노력은 MLPerf 테스트 성과를 지속적으로 개선하며, 컨테이너화된 소프트웨어의 성능을 높이고, 기존 파트너와 고객에게 더 강력한 컴퓨팅 역량을 제공합니다. 이를 통해 플랫폼 투자에 대한 수익성을 더욱 강화할 수 있습니다.
파트너십
SUSTek, Azure, Cisco, Dell, Fujitsu, Giga Computing, Lambda Labs, Lenovo, Oracle Cloud, Quanta Cloud Technology, Supermicro 등 다양한 시스템 제조업체와 클라우드 서비스 제공업체로 구성된 NVIDIA 파트너들도 이번 MLPerf 최신 라운드에서 뛰어난 성과를 기록했습니다.
MLCommons의 창립 멤버인 NVIDIA는 AI 컴퓨팅 분야에서 업계 표준 벤치마크와 벤치마킹 모범 사례가 매우 중요한 역할을 한다고 강조합니다. 이를 통해 기업들은 동료 검토를 거친 AI 및 HPC 플랫폼 비교 데이터를 바탕으로 최신 AI 기술 혁신에 발맞추고, 중요한 플랫폼 투자 결정을 내리는 데 필요한 정보를 얻을 수 있습니다.
최신 MLPerf 결과에 대한 자세한 내용은 NVIDIA 테크니컬 블로그에서 확인할 수 있습니다.