업계 최고의 인공지능(AI) 시스템인 엔비디아 DGX A100는 엔비디아 DGX의 3세대 제품으로, 5페타플롭(PF)의 AI 성능을 제공하고, 데이터센터의 성능과 기능을 유연한 단일 플랫폼으로 통합한 최초의 솔루션입니다.
이미 DGX A100을 도입해 활용하고 있는 미국 에너지국(DOE)의 아르곤국립연구소(Argonne National Laboratory)는 AI와 컴퓨팅 역량을 이용해 코로나19를 이해 및 분석하고 있습니다.
젠슨 황(Jensen Huang) 엔비디아 창립자 겸 CEO는 “엔비디아 DGX A100은 AI의 진화를 위한 최고의 플랫폼입니다. 엔비디아 DGX는 데이터 분석부터 훈련, 추론에 이르는 엔드-투-엔드 머신러닝 워크플로우를 위해 구축된 최초의 AI 시스템입니다. 새로운 DGX의 성능이 크게 향상됨에 따라, 머신러닝 엔지니어들은 기하급수적으로 증가하는 AI 모델과 데이터 규모에 보다 효과적으로 대응할 수 있게 됐습니다”라고 말했습니다.
DGX A100 시스템은 새로운 엔비디아 A100 텐서 코어(Tensor Core) GPU 8개를 통합해 최대 규모의 AI 데이터세트 훈련시킬 수 있는 320GB 메모리와 200Gb의 속도를 구현하는 멜라녹스(Mellanox)의 최신 HDR 상호연결 솔루션을 제공합니다.
또한, A100 멀티 인스턴스 GPU 기능을 사용해 DGX A100을 시스템 당 최대 56개의 인스턴스로 분할해 여러 개의 작은 워크로드를 가속화할 수 있습니다. 이를 통해, 기업들은 온디맨드 형식으로 통합된 소프트웨어 정의 플랫폼에서 데이터 분석, 훈련, 추론을 포함한 다양한 워크로드를 가속화하기 위해 필요에 따라 컴퓨팅 성능과 리소스를 최적화할 수 있습니다.
빠르게 도입되고 있는 DGX A100
이달 초 첫번째로 공급된 아르곤국립연구소에 외에도, 이미 많은 세계 선도적인 기업, 서비스 제공업체 및 정부 기관들이 DGX A100의 도입을 결정했습니다.
아르곤국립연구소의 컴퓨팅, 환경, 생명과학 부문 연구 디렉터인 릭 스티븐스(Rick Stevens)는 “우리는 코로나19에 대응하기 위해 미국에서 가장 강력한 슈퍼컴퓨터를 사용하고 있으며, 엔비디아 DGX A100과 같은 최신 기술을 활용해 AI 모델을 실행하고 시뮬레이션하고 있습니다. 새로운 DGX A100 시스템의 컴퓨팅 성능은 우리 연구원들이 코로나19의 치료법과 백신을 탐구하고 바이러스의 확산을 연구하는데 상당한 도움을 주는 것은 물론, 몇 년이 걸리는 AI 가속화 작업을 단 몇 개월 혹은 몇일로 단축시킬 것입니다”라고 설명했습니다.
플로리다 대학교는 미국에서 최초로 DGX A100 시스템을 도입하는 고등교육기관으로, 교육과정 전반에 걸쳐 AI를 적용해 AI 전문인력을 육성할 계획입니다.
플로리다 대학교 총장 켄트 푸크스(Kent Fuchs)는 “플로리다 대학교는 AI 분야를 선도하는 교육기관이 되겠다는 비전을 갖고 있으며, 엔비디아는 이러한 목표를 실현하는 데 중요한 파트너입니다. 새로운 엔비디아 DGX A100 시스템은 우리 연구진들이 모든 분야에 걸쳐 세계적으로 가장 시급한 문제를 해결하고, 학생들이 유능한 인재로 거듭날 수 있는 역량을 갖추도록 할 것입니다”라고 말했습니다.
DGX A100을 조기에 도입한 기업은 다음과 같습니다.
- 독일 함부르크 에펜도르프 대학 메디컬센터(Hamburg-Eppendorf) 바이오의약품 AI 센터: DGX A100을 활용해 임상 의사결정 지원을 개선하고, 프로세스를 최적화합니다.
- 태국의 쭐라롱꼰 대학교(Chulalongkorn University): DGX A100을 사용해 태국어 자연어 처리, 자동 음성 인식, 컴퓨터 비전, 의료 영상 등 선구적인 연구를 가속화합니다.
- 몬트리올의 AI 기반 솔루션 및 서비스 개발업체 엘레멘트 AI(Element AI): DGX A100을 통해 자사의 오케스트레이터 GPU 스케줄러(Orkestrator GPU scheduler)의 성능 및 기능을 최적화하여 AI 훈련 및 애플리케이션에 대해 증가하는 요구사항을 충족시킵니다.
- 독일 AI연구센터(DFKI): DGX A100 시스템을 활용해 새로운 딥 러닝 방법과 설명 가능성(Explainability)에 대한 연구를 더욱 가속화하는 동시에 공간 및 에너지 효율을 개선합니다.
- 시드니에 본사를 둔 헬스케어 AI 기업인 해리슨.ai(Harrison.ai): 호주 최초로 DGX A100 시스템을 구축하여 AI-의료-디바이스(AI-as-medical-device) 개발을 가속화합니다.
- 중동 최초로 새로운 DGX A100을 배치한 UAE 인공지능 사무소(The UAE Artificial Intelligence Office): 공공과 민간 부문에 걸쳐 AI 연구, 개발, 채택을 가속화할 수 있는 국가 인프라를 구축합니다.
- 하노이, 호치민 시에 본사를 둔 베트남의 대표적인 AI 연구소 빈AI 리서치(VinAI Research): DGX A100을 활용해 효과적인 연구를 실시하고 AI 적용을 가속화합니다.
전세계적으로 수천 개의 엔비디아 DGX 시스템이 공공 및 민간 조직에 걸쳐 광범위하게 사용되고 있습니다. 이들 중에는 자동차 제조업체, 헬스케어 제공업체, 유통업체, 금융기관, 물류업체 등 업계 전반에 AI 적용을 추진하고 있는 세계 굴지의 기업들도 포함됩니다.
700페타플롭(PF)의 성능을 제공하는 차세대 DGX 슈퍼POD
엔비디아는 또한 700페타플롭(PF)의 AI 컴퓨팅 파워를 구현하는 140개 DGX A100 시스템의 클러스터인 차세대 DGX 슈퍼POD(DGX SuperPOD)를 공개했습니다. 엔비디아는 140개의 DGX A100 시스템과 엔비디아 멜라녹스 200Gb HDR 인피니밴드(InfiniBand) 인터커넥트를 결합해 대화형 AI, 게놈, 자율주행 등의 연구를 강화하기 위해 차세대 DGX 슈퍼POD AI 슈퍼컴퓨터를 구축했습니다.
해당 클러스터는 세계에서 가장 빠른 AI 슈퍼컴퓨터 중 하나로, 기존에는 수천 대의 서버가 필요했던 수준의 성능을 제공합니다. 이러한 슈퍼컴퓨팅 성능을 구현하기 위해서는 필요한 특정 구성요소를 몇 개월 또는 몇 년에 걸쳐 계획하고 조달해야 했습니다. 하지만, DGX A100의 엔터프라이즈-레디 아키텍처와 성능을 기반으로 엔비디아는 이 시스템을 단 한달만에 구축할 수 있었습니다.
엔비디아는 고객들이 DGX A100 기반 자체 데이터센터를 구축할 수 있도록 돕기 위해 DGX 슈퍼POD 레퍼런스 아키텍처도 새롭게 출시했습니다. 이를 통해, 엔비디아가 DGX A100 기반 AI 슈퍼컴퓨팅 클러스터를 구축하는 데 사용한 것과 동일한 설계 원칙 및 모범사례를 따르는 청사진을 제공합니다.
DGXpert 프로그램, DGX-레디 소프트웨어
엔비디아는 또한 DGX 고객을 자사의 AI 전문가들과 연결하는 DGXpert 프로그램과 더불어, 고객이 AI 워크플로우에 인증된 엔터프라이즈 급 소프트웨어를 활용할 수 있도록 하는 엔비디아 DGX-레디 소프트웨어 프로그램을 출시했습니다.
DGXpert는 계획부터 구현, 최적화까지 고객의 AI 구축 과정 전반을 돕는 AI 전문가들로, DGX A100 고객이 최첨단 AI 인프라를 구축 및 유지하도록 지원합니다.
엔비디아 DGX-레디 소프트웨어 프로그램은 DGX 고객이 데이터 과학 생산성을 높이고 AI 워크플로우를 가속화하며 AI 인프라의 접근성과 활용도를 개선하는 데 도움이 되는 엔비디아가 테스트한 서드파티 MLOps 소프트웨어를 신속하게 식별하여 활용할 수 있도록 지원합니다. 엔비디아가 인증한 첫 프로그램 파트너사로는 알레그로 AI(Allegro AI), cnvrg.io, 코어 사이언티픽(Core Scientific), 도미노 데이터 랩(Domino Data Lab), 이과지오(Iguazio), 페이퍼스페이스(Paperspace)가 있습니다.
DGX A100 기술 사양
- 8개의 엔비디아 A100 텐서 코어가 초당 4TB의 대역폭을 지원하며 총 320GB의 GPU 메모리를 통해 5페타플롭(PF)의 AI 성능을 구현합니다.
- 6개의 엔비디아 NV스위치(NVSwitch™) 인터커넥트 패브릭과 3세대 엔비디아 NV링크(NVLink®) 기술을 통해 초당 8TB의 양방향 대역폭을 지원합니다.
- 200Gb의 속도를 제공하는 9개 엔비디아 멜라녹스 ConnectX-6 HDR 네트워크 인터페이스를 통해 초당 총 6TB의 양방향 대역폭을 제공합니다.
- 엔비디아 멜라녹스의 인-네트워크 컴퓨팅(In-Network Computing) 및 RDMA, GPU다이렉트(GPUDirect®), SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)™와 같은 네트워크 가속 엔진 활용해 최고 수준의 성능과 확장성을 제공합니다.
- 3세대 NVMe SSD보다 2배 빠른 속도를 구현하는 15TB의 4세대 NVMe 내장 스토리지를 제공합니다.
- AI 및 데이터 과학 워크로드에 최적화된 소프트웨어가 포함된 엔비디아 DGX 소프트웨어 스택을 통해 뛰어난 성능을 제공하고, 기업들이 AI 인프라에 대한 투자 수익을 빠르게 달성할 수 있도록 돕습니다.
5개의 DGX A100 시스템으로 구성된 단일 랙은 AI 훈련 및 추론 인프라 데이터센터의 전력소비를 20분의 1, 공간을 25분의 1, 비용을 10분의 1로 줄여줍니다.
출시 정보
엔비디아 DGX A100 시스템의 가격은 미화 199,000 달러부터 시작하며, 엔비디아 총판을 통해 출하 중입니다. 스토리지 기술 제공업체인 DDN 스토리지(DDN Storage), Dell, IBM, 넷앱(NetApp), 퓨어 스토리지(Pure Storage), 배스트(Vast)는 엔비디아 DGX POD 및 DGX 슈퍼POD 레퍼런스 아키텍처를 기반으로 하는 제품을 포함해 DGX A100을 자사 제품에 통합할 계획입니다.
엔비디아 DGX-레디 데이터센터 파트너들은 26개국 122개 이상의 지역에서 현지 서비스를 통해 DGX 인프라를 호스팅할 비용 효율적인 시설을 찾는 고객들을 돕고 있습니다. DGX A100 고객은 이러한 서비스를 활용해 검증된 세계적 수준의 데이터센터 시설 내에 DGX A100 인프라를 도입하고 액세스할 수 있습니다.
기타 기술 사양 및 주문 정보를 포함한 자세한 정보는 www.nvidia.com/DGXA100에서 확인할 수 있습니다.