세계에서 가장 강력한 AI 슈퍼컴퓨팅 GPU 베일 벗다

NVIDIA HGX AI 슈퍼컴퓨팅 플랫폼을 구동하는 새로운 NVIDIA A100 80GB GPU가 공개됐습니다. A100 80GB GPU는 이전 모델 대비 2배 높아진 메모리와 전례 없는 속도와 성능을 제공해 연구자 및 엔지니어들의 과학적 발견과 AI 혁신을 가속화할 예정입니다.

1117 블로그 2 [이미지] 엔비디아 A100 80GB GPU — NVIDIA A100 80GB GPU

HBM2e 기술이 적용된 NVIDIA A100 80GB GPU는 A100 40GB GPU의 고대역폭 메모리를 2배인 80GB로 늘리고, 초당 2테라바이트(TB) 이상의 메모리 대역폭을 제공합니다. 세계에서 가장 빠른 데이터센터 GPU인 A100는 데이터를 신속하게 제공해 연구자들이 애플리케이션을 빠르게 구동하고, 대규모 모델과 데이터셋을 활용할 수 있도록 지원합니다.

NVIDIA 응용 딥 러닝 리서치 부문 부사장 브라이언 카탄자로(Bryan Catanzaro)는 “고성능컴퓨팅(HPC)과 AI 분야에서 최상의 연구 결과를 내기 위해서는 방대한 데이터 모델을 구축해야 하는데, 여기에는 어느때보다 더 높은 메모리 용량과 대역폭이 요구됩니다. A100 80GB GPU는 불과 6개월 전에 출시된 이전 모델 보다 2배 높은 메모리를 제공합니다. 또한, 초당 2TB의 속도로 연구자들이 중요한 과학 및 빅 데이터 프로젝트를 해결하도록 돕습니다”라고 말했습니다.

NVIDIA A100 80GB GPU는 함께 발표된 NVIDIA DGX A100과 DGX Station A100 시스템에서 이용 가능하며, 해당 제품들은 이번 분기에 출하될 예정입니다.

업계 선도적인 시스템 공급업체인 아토스(Atos), 델 테크놀로지스(Dell Technologies), 후지쯔(Fujitsu), 기가바이트(GIGABYTE), HPE, 인스퍼(Inspur), 레노버(Lenovo), 퀀타(Quanta), 슈퍼마이크로(Supermicro)는 2021년 상반기부터 A100 80GB GPU가 탑재된 HGX A100 통합 베이스보드로 구축된 시스템을 제공할 계획입니다.

방대한 데이터 워크로드 지원

새로운 A100 80GB GPU는 A100 40GB GPU 버전의 다양한 기능을 기반으로 설계됐으며 데이터 집약적인 애플리케이션에 이상적입니다.

AI 훈련에 있어 DLRM과 같은 추천 시스템 모델에는 수십억 명의 사용자와 수십억 개의 제품을 나타내는 방대한 테이블을 포함하고 있습니다. A100 80GB GPU는 최대 3배 빠른 속도를 제공하므로 기업은 이러한 유형의 모델을 신속하게 재훈련해 매우 정확한 추천 서비스를 제공할 수 있습니다.

A100 80GB GPU는 뛰어난 언어 생성 기능을 갖춘 GPT-2 자연어 처리 모델과 같이 단일 HGX 탑재 서버에서 더 많은 매개변수를 가진 방대한 모델을 훈련할 수 있습니다. 따라서 모델 구동에 많은 시간이 소요되지 않으며 병렬처리를 여러 노드에 걸쳐서 할 필요가 없습니다.

A100은 멀티 인스턴스 GPU(MIG) 기술을 통해 최대 7개의 GPU 인스턴스로 분할할 수 있으며, 각각의 인스턴스는 10GB 메모리를 탑재합니다. 이를 통해 안전하게 하드웨어를 격리하고 다양한 소규모 워크로드를 지원해 GPU 활용도를 극대화합니다. RNN-T와 같은 자동 음성 모델의 AI 추론의 경우, 단일 A100 80GB MIG 인스턴스가 1.25배 더 많은 추론 처리량을 제공합니다.

TB규모의 리테일용 빅데이터 분석 벤치마크에서 A100 80GB GPU는 최대 2배로 높은 성능을 달성하며, 가장 큰 데이터셋에서 신속한 통찰력을 제공하는 이상적인 플랫폼임을 입증했는데요. 기업들은 업데이트되는 동적 데이터를 통해 실시간으로 주요 의사결정을 내릴 수 있습니다.

또한 A100 80GB GPU는 기상 예측과 양자 화학과 같은 분야의 과학 분야의 애플리케이션을 빠르게 가속화할 수 있습니다. 소재 시뮬레이션인 Quantum Espresso는 A100 80GB GPU의 단일 노드로 성능을 2배 가까이 향상시켰습니다.

마쓰오카 사토시(Satoshi Matsuoka) 일본 이화학연구소(RIKEN) 컴퓨터 사이언스 센터 이사는 “빠르고 충분한 메모리 대역폭과 용량은 슈퍼컴퓨팅 애플리케이션의 높은 성능을 구현하는 데 필수적입니다. 초당 2TB 대역폭의 HBM2e GPU 메모리를 갖춘 NVIDIA A100 80GB GPU는 세계 최고 수준으로 애플리케이션 성능을 향상시키는 데 상당한 도움이 될 것”이라고 설명했습니다.

A100 80GB GPU의 주요 특징

A100 80GB GPU는 획기적인 NVIDIA Ampere 아키텍처의 여러 기능을 포함합니다.

3세대 Tensor Core: 새로운 TF32 형식, 2.5배 뛰어난 HPC 성능의 FP64, 20배 향상된 AI 추론을 위한 INT8, BF16 데이터 포맷을 지원합니다. 이를 통해 Volta V100 대비 20배 높은 AI 처리량을 제공합니다.
더 크고 빠른 HBM2e GPU 메모리: 메모리 용량을 2배 늘려 업계 최초로 초당 2TB 이상의 메모리 대역폭을 제공합니다.
MIG 기술: 격리된 인스턴스 당 메모리를 두 배로 늘려 개별 10GB 메모리의 최대 7개의 GPU를 제공합니다.
구조적 희소성: 희소 모델(sparse model)은 추론하는 속도를 최대 2배까지 향상합니다.
3세대 NVLink 및 NVSwitch: 이전 세대 대비 2배 높은 GPU-to-GPU 대역폭을 제공해 데이터 전송을 초당 600GB로 가속화합니다.

NVIDIA HGX AI 슈퍼컴퓨팅 플랫폼

A100 80GB GPU는 NVIDIA GPU, NVLink, NVIDIA InfiniBand 네트워킹에 최적화된 NVIDIA AI, HPC 소프트웨어 스택을 제공해 최고의 AI 애플리케이션 성능을 지원합니다. 이를 통해 연구자와 과학자들은 HPC, 데이터 애널리틱스, 딥 러닝 컴퓨팅 방법을 통합해 과학적 발전을 도모할 수 있습니다.