달라진 AI와 HPC 플랫폼 NIDIA HGX A100 시스템 ‘완전 해부’

by NVIDIA Korea

NVIDIA는 NVIDIA HGX AI 슈퍼컴퓨팅 플랫폼에 AI와 고성능컴퓨팅(HPC)을 융합하는 새로운 기술을 추가하고, 다양한 산업분야에서 슈퍼 컴퓨팅이 더욱 유용하게 활용될 수 있도록 지원합니다.

NVIDIA는 새로운 산업용 AI와 HPC의 시대를 위해 HGX 플랫폼에 NVIDIA A100 80GB PCIe GPU, NVIDIA NDR 400G InfiniBand 네트워킹, NVIDIA Magnum IO GPUDirect 스토리지 소프트웨어 등 3가지 핵심 기술을 추가했습니다. 이를 통해 산업분야에서 HPC 혁신을 가능하게 하는 궁극의 성능을 제공합니다.

아토스(Atos), 델 테크놀로지스(Dell Technologies), HPE, 레노버(Lenovo), 마이크로소프트 애저(Microsoft Azure)와 넷앱(NetApp) 등을 포함한 수십여 파트너사들은 차세대 시스템과 솔루션에 NVIDIA HGX 플랫폼을 사용하고 있습니다.

젠슨 황(Jensen Huang) NVIDIA 창립자 겸 CEO는 “학계에서 시작된 HPC 혁신은 다양한 산업으로 빠르게 확대되고 있습니다. 이른바 ‘슈퍼’ 무어의 법칙에 따라 HPC가 기하급수적으로 발전되면서 산업분야에서 유용하게 활용되고 있습니다. NVIDIA HGX 플랫폼은 연구자들이 업계에서 직면하고 있는 가장 어려운 문제를 해결할 수 있는 탁월한 HPC 성능을 제공합니다”라고 말했습니다.

HGX 플랫폼으로 혁신 중인 업계 선도 기업들

하이테크 산업의 선도기업인 GE(General Electric)은 HGX 플랫폼을 사용해 대형 가스 터빈과 제트 엔진의 설계 혁신을 돕는 컴퓨터 유체 역학(CFD) 시뮬레이션에 HPC 혁신을 구현하고 있습니다. HGX 플랫폼을 통해 GE의 GENESIS 코드에서 획기적인 CFD를 위한 대규모 가속을 달성했죠. 이 코드는 수백 개의 개별 블레이드로 구성되고 고유하게 복잡한 형상이 필요한 터빈 내부 난류의 영향을 연구하기 위한 대와류모사(LES)에 활용됩니다.

HGX 플랫폼은 산업분야에서 HPC 혁신을 촉진하는 동시에 영국 에든버러대학교의 차세대 슈퍼컴퓨터를 포함하여 전세계의 과학적 HPC 시스템을 가속화하고 있습니다.

AI와 HPC용 NVIDIA A100 80GB PCIe 성능 향상

NVIDIA A100 Tensor Core GPU는 산업용 HPC와 관련된 복잡한 AI, 데이터 애널리틱스, 모델 교육과 시뮬레이션 과제를 위한 전례 없는 HPC 가속화 성능을 제공합니다. A100 80GB PCIe GPU는 A100 40GB에 비해 GPU 메모리 대역폭을 25% 증가시켜 초당 2TB로 높이고, 80GB의 HBM2e 고대역폭 메모리를 제공합니다.

A100 80GB PCIe의 방대한 메모리 용량과 높은 메모리 대역폭은 더 많은 데이터와 더 방대한 신경망을 메모리에 저장할 수 있게 해주어 노드 간 통신, 에너지 소비를 최소화할 수 있습니다. 더 빠른 메모리 대역폭과 함께, 연구자들은 더 높은 처리량과 더 빠른 결과를 통해 IT 투자 가치를 극대화할 수 있죠.

A100 80GB PCIe는 AI 추론과 같은 소규모 워크로드에 대한 가속화를 제공하는 멀티 인스턴스 GPU(MIG)를 탑재한 NVIDIA Ampere 아키텍처로 구동됩니다. HPC 시스템은 MIG를 통해 서비스 품질을 보장하면서도 컴퓨팅과 메모리 규모를 줄일 수 있죠. PCIe 외에도 4웨이, 8웨이 NVIDIA HGX A100 구성이 가능합니다.

A100 80GB PCIe에 대한 NVIDIA의 파트너 지원에는 아토스, 시스코(Cisco), 델 테크놀로지스, 후지쯔(Fujitsu), H3C, HPE, 인스퍼(Inspur), 레노버, 펭귄컴퓨팅(Penguin Computing), QCT와 슈퍼마이크로(Supermicro)가 포함됩니다. NVLink를 통해 상호 연결된 A100 기반 GPU를 탑재한 HGX 플랫폼은 아마존웹서비스(AWS), 구글 클라우드(Google Cloud), 마이크로소프트 애저, 오라클 클라우드 인프라스트럭쳐(Oracle Cloud Infrastructure)의 클라우드 서비스를 통해서도 사용할 수 있습니다.

차세대 NDR 400Gb/s InfiniBand 스위치 시스템

탁월한 데이터 처리량이 요구되는 HPC 시스템에는 전세계 유일의 완전 오프로드 가능한 인네트워크 컴퓨팅 인터커넥트인 NVIDIA InfiniBand가 적용됩니다. NDR 인피니밴드는 확장된 성능으로 산업, 과학 분야 HPC 시스템의 대규모 문제를 해결합니다. NVIDIA Quantum-2 고정 구성 스위치 시스템은 포트당 64개의 NDR 400Gb/s 인피니밴드 포트(또는 128개 NDR200 포트)를 제공하여 HDR 인피니밴드 대비 포트 집적도가 3배 더 높습니다.

NVIDIA Quantum-2 모듈식 스위치는 최대 2,048개의 NDR 400Gb/s 인피니밴드 포트(또는 4,096개의 NDR200 포트)의 확장 가능한 포트 구성을 제공하며, 총 양방향 처리량은 초당 1.64 페타바이트로 이전 세대 대비 5배 높습니다. 2,048 개의 포트 스위치는 드래곤플라이+(DragonFly+) 네트워크 토폴로지를 사용해 단 3개의 홉으로 백만 개 이상의 노드를 연결할 수 있어, 이전 세대보다 6.5배 향상된 확장성을 제공하죠. 3세대 NVIDIA SHARP 인네트워크 컴퓨팅 데이터 축소 기술은 이전 세대 대비 32배 높은 AI 가속화 성능으로 고성능 산업과 과학 애플리케이션의 성능을 향상시킵니다.

고급 관리 기능에는 자가 복구 네트워크 기능과 NVIDIA 인네트워크 컴퓨팅 가속화 엔진이 포함됩니다.  NVIDIA UFM Cyber-AI 플랫폼을 통해 데이터센터 다운타임을 더욱 최소화할 수 있습니다. 업계 표준에 기반한 NVIDIA Quantum-2 스위치는 연말까지 샘플링이 가능할 것으로 예상되는데요. 상위, 하위 버전과 호환되므로 기존 시스템과 소프트웨어를 손쉽게 마이그레이션하고 확장할 수 있습니다.

아토스, DDN, 델 테크놀로지스(Dell Technologies), 엑셀레로(Excelero), 기가바이트(GIGABYTE), HPE, 레노버, 펭귄, QCT, 슈퍼마이크로, VAST, WekaIO를 비롯한 업계 최고의 인프라 제조업체들은 Quantum-2 NDR 400Gb/s 인피니밴드 스위치를 엔터프라이즈와 HPC 오퍼링에 통합할 계획입니다. 애저(Azure)를 비롯한 클라우드 서비스 공급업체들도 인피니밴드 기술을 활용하고 있죠.

매그넘 IO GPUDirect 스토리지

복잡한 워크로드에 독보적인 성능을 제공하는 Magnum IO GPUDirect 스토리지는 GPU 메모리와 스토리지 간의 직접 메모리 액세스를 가능하게 합니다. 이는 애플리케이션이 I/O 지연 시간을 단축하고 네트워크 어댑터의 전체 대역폭을 사용하는 동시에 CPU 사용 부하를 줄이고 데이터 사용량 증가에 따른 영향을 관리할 수 있게 해줍니다.

DDN, 델 테크놀로지스, 엑셀레로, HPE, IBM 스토리지, 마이크론(Micron), 넷앱, 파빌리온(Pavilion), 스케일플럭스(ScaleFlux), VAST와 WekaIO를 포함한 업계 선도기업들이 현재 이용 가능한 매그넘 IO GPUDirect스토리지를 지원합니다. 스토리지 파트너는 여기에서 확인할 수 있습니다.