NVIDIA의 AI 성능, MLPerf HPC 벤치마크에서 증명

by NVIDIA Korea

NVIDIA는 기반 시스템이 고성능컴퓨팅(HPC) 과학 애플리케이션의 AI 성능에 대한 업계 벤치마크인 MLPerf HPC 1.0의 5개 테스트 중 4개에서 우위를 차지했습니다!

MLPerf는 2018년 5월에 처음 출시된 딥 러닝에 대한 업계 공인 벤치마크 테스트입니다. MLPerf HPC에서는 AI를 사용하여 슈퍼컴퓨터에서 시뮬레이션을 가속화하고 강화하는 컴퓨팅 스타일을 중점적으로 다루죠. 최근 과학, 산업 분야의 사용자들은 엑사스케일 AI의 채택을 통해 분자 역학, 천문학, 기후 시뮬레이션에서 HPC와 AI로 과학적 혁신을 이루고 있습니다.

MLPerf HPC 1.0 측정

MLPerf HPC 1.0은 HPC 센터에 대한 세 가지 일반적인 워크로드에서 AI 모델의 훈련을 측정했습니다:

  • 코스모플로우(CosmoFlow)로 망원경의 이미지에 있는 물체의 세부 정보를 추정
  • 딥캠(DeepCAM)으로 기후 데이터에서 허리케인과 대기의 강(atmospheric river) 탐지를 테스트
  • 오픈 카탈리스트(OpenCatalyst)로 시스템이 분자 내 원자 간의 힘을 얼마나 잘 예측하는지 추적

각 테스트는 두 부문으로 구성되어 있는데요. 시스템이 모델을 얼마나 빨리 훈련시키는지 측정하는 강력 스케일링(Strong Scaling)과 이에 상응하는 최대 시스템 처리량, 즉 주어진 시간에 시스템이 훈련할 수 있는 모델 수를 측정하는 약 스케일링(Weak Scaling)입니다.

NVIDIA는 작년 MLPerf 0.7 라운드에 비해 5배 더 향상된 코스모플로우 성과를 냈습니다. 딥캠 테스트에서는 대략 7배 나아진 성능을 보였죠. 로렌스 버클리 국립 연구소(Lawrence Berkeley National Lab)의 펄머터 페이즈1(Perlmutter Phase 1) 시스템은 6,144개의 NVIDIA A100 Tensor Core GPU 중 512개를 사용하여 오픈카탈리스트 테스트 내의 강력 스케일링 부문에서 우위를 뽐냈습니다.

또한 약 스케일링 부문에서는 작업당 16개의 노드와 256개의 동시 작업을 사용하여 딥캠 테스트를 주도했죠. 모든 테스트는 사내 시스템이자 NVIDIA의 세계 최대 산업용 슈퍼컴퓨터인 NVIDIA Selene에서 실행됐습니다.

NVIDIA wins MLPerf HPC, Nov 2021
NVIDIA는 모델 훈련 속도와 칩당 효율성에서 최고의 결과를 보여줬습니다.

MLPerf의 최신 결과는 NVIDIA AI 플랫폼과 성능 리더십의 또 다른 차원을 보여줍니다. NVIDIA는 데이터센터, 클라우드와 네트워크 엣지에서 AI 교육, 추론을 포괄하는 MLPerf 벤치마크에서 8년 연속 최고 점수를 달성했습니다.

광범위한 생태계

이 라운드에 참가한 조직 8개 중 7곳이 NVIDIA GPU를 사용한 결과를 제출했습니다. 여기에는 독일의 율리히 슈퍼컴퓨팅 센터(Jülich Supercomputing Center), 스위스 국립 슈퍼컴퓨팅 센터(Swiss National Supercomputing Center), 미국의 아르곤 및 로렌스 버클리 국립 연구소(Argonne and Lawrence Berkeley National Laboratories), 슈퍼컴퓨팅 애플리케이션 국립 센터(National Center for Supercomputing Applications) 및 텍사스 고급 컴퓨팅 센터(Texas Advanced Computing Center)를 포함합니다.

율리히 슈퍼컴퓨팅 센터(Jülich Supercomputing Center)의 토마스 리퍼트(Thomas Lippert) 이사는 “벤치마크 테스트를 통해 우리 기계가 실제로 잠재력을 발휘할 수 있고 AI와 관련하여 유럽이 계속 우위를 점할 수 있다는 것을 보여줬습니다”라고 밝혔습니다.

MLPerf 벤치마크는 알리바바(Alibaba), 구글(Google), 인텔(Intel), 메타(Meta, 구 페이스북), NVIDIA 등이 이끄는 산업 그룹인 ML커먼스(MLCommons)에서 주최하고 있습니다.

이번 결과는 전체 소프트웨어 스택을 포함하는 완성된 NVIDIA AI 플랫폼을 통해 달성했습니다. MLPerf에서 NVIDIA는 데이터 처리를 가속화하는 NVIDIA DALI와 최대 1,024개 이상의 GPU를 효율적으로 확장하고, 소규모 배치 지연을 줄이기 위한 CUDA 그래프와 같은 기술로 모든 사람이 이용할 수 있도록 코드를 조정했죠.

또한 NVIDIA MagnumIO의 핵심 구성 요소인 NVIDIA SHARP도 적용됐는데요. 이는 네트워크 내 컴퓨팅을 제공하여 통신을 가속화하고 NVIDIA Quantum InfiniBand 스위치로 데이터 작업을 오프로드 할 수 있게 해줍니다.

제출에 사용한 모든 소프트웨어는 MLPerf 저장소에서 이용할 수 있습니다. NVIDIA는 사전 훈련된 AI 모델, 산업 애플리케이션 프레임워크, GPU 애플리케이션과 기타 소프트웨어 리소스를 위한 소프트웨어 허브인 NGC 카탈로그에 이러한 코드를 정기적으로 추가하고 있습니다.