차세대 GPU 아키텍처 암페어(Ampere) 기반 최초 데이터센터 GPU 전격 공개

차세대 GPU 아키텍처 암페어(Ampere)는 세계 유수 클라우드 서비스와 서버 제품에 적용됩니다
by NVIDIA Korea

엔비디아 젠슨 황 CEO의 GTC 2020 기조연설을 통해 새로운 GPU 아키텍처 암페어(Ampere)와 이를 기반으로 한 최초의 GPU ‘엔비디아 A100’을 공개했습니다. 엔비디아는 현재 전 세계 고객을 대상으로 A100을 생산, 출하할 예정입니다.

혁신적인 엔비디아 암페어 아키텍처를 기반으로 설계된 A100은 엔비디아 8세대 GPU에서 지원가능한 최대 성능을 제공해 인공지능(AI) 훈련과 추론을 통합하고, 이전 세대 프로세서 대비 최대 20배까지 성능을 향상시킵니다. 또한 A100은 범용 워크로드 가속기로 데이터 분석, 과학 컴퓨팅과 클라우드 그래픽용으로도 설계됐습니다.

젠슨 황(Jensen Huang) 엔비디아 창립자 겸 CEO는 “클라우드 컴퓨팅과 AI가 데이터센터 구조적 변화를 주도하면서, CPU 전용 서버로 가득했던 데이터센터가 GPU 가속 컴퓨팅 환경으로 전환되고 있습니다. 엔비디아 A100 GPU는 AI 성능을 20배까지 향상시키며, 데이터 분석부터 훈련과 추론에 이르는 엔드-투-엔드 머신러닝 가속기입니다. A100을 통해, 최초로 하나의 플랫폼에서 스케일업(scale-up)과 스케일아웃(scale-out) 워크로드를 가속화할 수 있게 됐습니다. 엔비디아 A100은 처리량을 높이는 동시에 데이터센터 비용을 절감할 것입니다”라고 설명했습니다.

A100에 적용된 새로운 엘라스틱 컴퓨팅 기술은 각 작업에 따라 적합한 규모의 컴퓨팅 파워를 제공할 수 있도록 합니다. 또한, 멀티-인스턴스 GPU 기능을 사용하면 A100 GPU를 각각 최대 7개의 독립 인스턴스로 분할하여 추론 과제를 수행할 수 있으며, 3세대 엔비디아 NV링크(NVLink®) 인터커넥트 기술은 여러 A100 GPU가 대규모의 훈련 과제를 위해 하나의 거대한 GPU로 작동할 수 있게 합니다.

A100 GPU는 알리바바 클라우드(Alibaba Cloud), 아마존웹서비스(Amazon Web Services), 아토스(Atos), 바이두 클라우드(Baidu Cloud), 시스코(Cisco), Dell, 후지쯔(Fujitsu), 기가바이트(GIGABYTE), 구글 클라우드(Google Cloud), H3C, HPE, 인스퍼(Inspur), 레노버(Lenovo), 마이크로소프트 애저(Microsoft Azure), 오라클(Oracle), 콴타 클라우드 테크놀로지(Quanta Cloud Technology), 슈퍼마이크로(Supermicro), 텐센트 클라우드(Tencent Cloud) 등을 포함한 세계 유수의 클라우드 서비스 제공업체와 시스템 구축업체들 제품에 통합될 계획입니다.

전세계 기업에서 빠르게 도입하고 있는 A100

마이크로소프트는 엔비디아 A100 GPU의 성능을 가장 먼저 확인한 기업으로, 앞으로도 A100의 성능과 확장성의 이점을 활용할 계획입니다.

마이크로소프트 부사장 미하일 파라킨(Mikhail Parakhin)은 “마이크로소프트는 최신 엔비디아 GPU를 활용해 세계 최대 언어 모델인 T-NLG(Turing Natural Language Generation)을 훈련시켰습니다. 애저는 엔비디아의 새로운 A100 GPU를 이용해 더 방대한 AI 모델을 훈련함으로써 언어, 음성, 비전, 멀티 모달리티의 첨단화를 도모할 수 있을 것입니다”라고 말했습니다.

도어대시(DoorDash)는 주문형 음식 배달 플랫폼 업체로, 유연한 AI 인프라 구축의 중요성에 주목하고 있습니다.

도어대시의 머신러닝 엔지니어 게리 렌(Gary Ren)은 “대량의 데이터를 필요로 하는 현대적이고 복잡한 AI 훈련과 추론 워크로드는 엔비디아 A100 GPU와 같은 최첨단 기술을 통해 모델 훈련 시간을 단축하고 머신러닝 개발 프로세스의 속도를 높이는 등 다양한 이점을 얻을 수 있습니다. 또한, 클라우드 기반 GPU 클러스터를 사용하면 필요에 따라 확장, 축소할 수 있는 유연성을 확보해 효율성 향상, 운영 간소화, 비용 절감에 도움이 됩니다”고 말했습니다.

이 외에도, 국가 연구소, 세계 유수의 고등 교육·연구 기관이 A100을 조기에 도입했으며, 차세대 슈퍼컴퓨터에 전력을 공급하기 위해 A100을 사용하고 있습니다.

  • HPE의 크레이 샤스타(Cray Shasta)를 기반으로 하는 미국 인디애나 대학교(Indiana University)의 빅 레드(Big Red) 2020 슈퍼컴퓨터는 과학·의학 연구, AI, 머신러닝, 데이터 분석 분야의 첨단 연구를 지원합니다.
  • 아토스(Atos)에 의해 구축된 JUWELS 부스터 시스템을 갖춘 독일의 율리히 슈퍼컴퓨팅 센터(Jülich Supercomputing Centre)는 극한의 컴퓨팅 파워와 AI 과제를 위해 설계됐습니다.
  • 독일의 카를스루에공과대학(Karlsruhe Institute of Technology)은 레노버와 함께 호레카(HoreKa) 슈퍼컴퓨터를 구축하고 있으며, 이를 통해 재료과학, 지구시스템과학, 에너지와 이동성 연구를 위한 엔지니어링, 입자, 천체입자물리학 분야에서 훨씬 더 큰 규모의 시뮬레이션을 수행할 수 있게 됩니다.
  • 독일의 막스 플랑크 컴퓨팅과 데이터 시설(Max Planck Computing and Data Facility)은 레노버가 구축한 차세대 슈퍼컴퓨터 레이븐(Raven)을 통해 막스 플랑크 연구소에 고성능컴퓨팅(HPC) 애플리케이션의 개발, 최적화, 분석, 시각화를 지원합니다.
  • 로렌스 버클리 국립 연구소(Lawrence Berkeley National Laboratory)에 위치한 미국 에너지국의 국립 에너지 연구 과학 컴퓨팅 센터(National Energy Research Scientific Computing Center)는 HPE의 크레이 샤스타 시스템을 기반으로 차세대 슈퍼컴퓨터 펄뮤터(Perlmutter)를 구축했습니다. 이를 통해, 첨단 과학연구 지원, 새로운 에너지원 개발, 에너지 효율 개선, 새로운 물질 발견 등을 수행합니다.

A100의 다섯 가지 주요 혁신

엔비디아 A100 GPU는 다음과 같은 다섯 가지 주요 혁신을 통해 혁신적인 기술 설계를 제공합니다.

  • 암페어 아키텍처: A100의 중심에는 540억 개 이상의 트랜지스터를 포함하는 엔비디아 암페어 GPU 아키텍처가 있으며, 이는 세계에서 가장 큰 7-나노미터 프로세서입니다.
  • TF32 탑재된 3세대 텐서 코어(Tensor Core): 이미 업계에서 널리 사용되고 있는 엔비디아의 텐서 코어는 이제 더 유연하고 빠르며 사용하기 쉬워졌습니다. 코드 변경없이 FP32 정밀도의 최대 20배까지 AI 성능을 높일 수 있는 새로운 AI용 TF32 기능이 추가됐습니다. 또한 텐서 코어는 현재 FP64를 지원해 HPC 애플리케이션에 대해 이전 세대보다 최대 5배 뛰어난 컴퓨팅 성능을 제공합니다.
  • 멀티-인스턴스 GPU: 새로운 기술 요소인 MIG는 단일 A100 GPU를 최대 7개의 개별 GPU로 분할하여 여러 규모의 작업에 따라 다양한 수준의 컴퓨팅 기능을 제공함으로써 활용도와 ROI(투자수익율)을 극대화합니다.
  • 3세대 엔비디아 NV링크: GPU간의 고속연결을 두 배로 향상시켜 서버에서 효율적인 성능 확장을 제공합니다.
  • 구조적 희소성: 새롭고 효율적인 기술로, AI가 가진 본질적으로 희박한 특성을 활용해 성능을 배가시킵니다.

 

이처럼 새로운 기능을 제공하는 엔비디아 A100은 AI 훈련, 추론뿐 아니라 과학 시뮬레이션, 대화형 AI, 추천 시스템, 유전체학, 고성능 데이터 분석, 지진 모델링, 재무 예측을 비롯한 다양하고 까다로운 워크로드에 이상적입니다.

새로운 시스템에서 사용가능한 엔비디아 A100

또한 새로 발표된 엔비디아 DGX A100 시스템에는 엔비디아 NV링크와 상호 연결된 8개의 엔비디아 A100 GPU가 탑재돼 있습니다. 이는 엔비디아와 승인된 파트너를 통해 즉시 이용 가능합니다.

알리바바 클라우드, AWS, 바이두 클라우드, 구글 클라우드, 마이크로소프트 애저, 오라클, 텐센트 클라우드는 A100 기반 서비스를 제공할 계획입니다. 또한, 아토스, 시스코, Dell, 후지쯔, 기가바이트, H3C, HPE, 인스퍼, 레노버, QCT, 슈퍼마이크로를 포함한 세계 유수의 시스템 제조업체들은 다양한 A100 기반 서버를  제공할 계획입니다.

엔비디아는 파트너의 서버 개발을 가속화하기 위해 여러 GPU 구성의 통합 베이스보드 형태의 서버 빌딩 블록인 HGX A100을 개발했습니다. 4개의 GPU가 탑재된 HGX A100은 NV링크와 GPU간의 완전한 상호 연결을 제공합니다. 반면, 8개의 GPU가 HGX A100은 엔비디아 NV스위치(NVSwitch™)를 통해 완전한 GPU-투-GPU 대역폭을 제공합니다. 새로운 멀티 인스턴스 GPU 아키텍처가 적용된 HGX A100은 각각 엔비디아 T4보다 빠른 56개의 소형 GPU부터, 8개의 GPU로 10페타플롭(PF)의 AI 성능을 제공하는 거대한 서버까지 구성 가능합니다.

A100을 위한 엔비디아 소프트웨어 최적화

엔비디아는 또한 애플리케이션 개발자들이 A100의 혁신적인 이점을 활용할 수 있도록 소프트웨어 스택에 대한 몇 가지 업데이트를 발표했습니다. 여기에는 그래픽, 시뮬레이션, AI를 가속화하는데 사용되는 50개 이상의 쿠다-X(CUDA-X) 라이브러리의 새로운 버전, 쿠다(CUDA) 11, 멀티모달 대화형 AI 서비스 프레임워크인 Riva, 심층 추천 애플리케이션 프레임워크인 멀린(Merlin), 그리고 HPC 개발자가 A100을 위해 코드를 디버깅, 최적화하도록 돕는 컴파일러, 라이브러리와 툴을 포함하는 엔비디아 HPC SDK 등이 해당됩니다.