NVIDIA 기술로 구동되는 세계에서 가장 빠른 슈퍼컴퓨터들

슈퍼컴퓨팅 컨퍼런스 2021(SC21)에서 발표된 전세계 슈퍼컴퓨터 Top500 리스트 중 70%에 달하는 355개 시스템이 NVIDIA 기술로 가속되고 있습니다! 또한 새로 구축된 시스템의 90% 이상이 NVIDIA의 기술력을 채택하고 있습니다.

그리고 에너지 효율이 가장 높은 시스템을 선별하는 그린500(Green500)의 상위 25개 시스템 중 23개가 NVIDIA 기술로 구동되고 있는데요. 평균적으로 NVIDIA GPU 기반 슈퍼컴퓨터는 GPU를 사용하지 않는 그린500 시스템 대비 3.5배 높은 에너지 효율을 제공합니다.

마이크로소프트(Microsoft)의 GPU 가속 애저(Azure) 슈퍼컴퓨터는 10위에 오르면서 클라우드 기반 시스템으로는 최초로 10위권에 진입했습니다. AI는 과학 연구를 위한 컴퓨팅을 혁신하고 있는데요. 최근 고성능컴퓨팅(HPC)과 머신 러닝을 활용한 논문의 수가 급증해 2018년에 약 600편 정도 제출되었던 관련 논문이 2020년에는 5,000편으로 증가했죠.

HPC와 AI 워크로드의 지속적인 융합은 HPL-AI와 MLPerf HPC 등의 새로운 벤치마크에서도 두각을 나타내고 있습니다.

HPL-AI는 혼합정밀도연산(딥 러닝과 다양한 과학 연구, 상업적 활용의 기초)을 사용하면서도 배정밀도 연산의 정확도(전통적 HPC 벤치마크의 표준 측정자 역할)를 온전히 제공하는 HPC와 AI 융합형 워크로드의 새로운 벤치마크입니다.

MLPerf HPC는 슈퍼컴퓨터상의 시뮬레이션을 AI로 가속, 개선하는 컴퓨팅 스타일을 평가합니다. HPC 센터의 주요 워크로드인 천체물리학(Cosmoflow)과 날씨(Deepcam), 분자동역학(Opencatalyst)을 바탕으로 성능을 측정합니다.

NVIDIA는 GPU 가속 프로세싱, 스마트 네트워킹, GPU 최적화 애플리케이션, AI와 HPC 융합 지원 라이브러리들로 풀 스택을 커버합니다. 이 같은 접근법을 통해 워크로드를 가속하고 과학적 혁신을 이룩할 수 있었죠.

가속 컴퓨팅

다양한 활용 사례에서 GPU의 병렬 처리 기능과 2,500개 이상의 GPU 최적화 애플리케이션이 결합하면 HPC 작업에 소요되는 시간을 몇 주에서 몇 시간으로 단축할 수 있습니다. NVIDIA는 CUDA-X 라이브러리와 GPU 가속 애플리케이션을 지속적으로 최적화하고 있기 때문에 동일한 GPU 아키텍처에서 예측이 불가하지만 강력한 성능 강화를 경험하는 것은 드문 일이 아닙니다.

그 결과, 가장 널리 사용되는 과학 애플리케이션들인 일명 “골든 스위트(golden suite)”의 성능이 지난 6년 동안 16배 이상 개선됐고, 앞으로 더 많은 발전이 기대되고 있습니다.

선도적인 HPC와 AI, ML 애플리케이션들의 성능이 풀 스택 혁신과 더불어 16배 향상됐습니다.

또한 NVIDIA는 강력한 성능의 신속한 활용을 지원하고자 AI와 HPC 소프트웨어의 최신 버전을 NGC 카탈로그의 컨테이너로 제공합니다. 이제 사용자는 자신의 슈퍼컴퓨터나 데이터센터, 클라우드에 애플리케이션을 가져와 실행하기만 하면 됩니다.

HPC와 AI의 융합

HPC와 AI를 융합하면 시뮬레이션을 가속하면서도 기존 시뮬레이션 방식의 정확도를 그대로 달성할 수 있죠. 이는 AI로 작업을 가속하는 연구자의 수가 증가하는 이유입니다. 슈퍼컴퓨팅 부문에서 최고의 권위를 자랑하는 고든벨(Gordon Bell) 상의 최종 후보 중 4인도 마찬가지입니다. 이와 더불어 여러 기관들도 HPC와 AI를 결합하는 새로운 모델을 지원할 엑사스케일(exascale) AI 컴퓨터의 구축에 앞다투어 뛰어들고 있죠.

또한 HPL-AI와 MLPerf HPC처럼 비교적 새로운 벤치마크들은 HPC와 AI 워크로드가 지속적으로 수렴되는 현실을 반영해 HPC와 AI 융합 모델의 성능에 특히 주안점을 두고 있습니다. 이 추세를 더욱 가속하기 위해 NVIDIA는 다양한 범주의 고급 라이브러리와 HPC용 소프트웨어 개발 키트를 새로 공개했습니다.

현대 데이터 사이언스의 주요 데이터 구조인 그래프(Graphs)가 이제 새로운 파이썬(Python) 패키지인 Deep Graph Library(DGL)을 통해 심층 신경망 프레임워크에 투영(projection)됩니다. NVIDIA Modulus에서는 물리법칙을 익히고 따를 수 있는 물리학 기반 머신 러닝 모델을 구축, 훈련할 수 있습니다. NVIDIA는 다음과 같은 신규 라이브러리도 소개했습니다.

ReOpt – 10조 달러 규모 물류산업의 운영 효율 개선
cuQuantum –양자 컴퓨팅 연구 가속
cuNumeric – 파이썬 커뮤니티의 과학자와 데이터 사이언티스트, 머신 러닝과 AI 연구자를 위한 넘파이(NumPy) 가속

이 모두를 하나로 연결하는 것이 바로 NVIDIA Omniverse입니다. Omniverse는 3D 워크플로우를 위한 가상 세계 시뮬레이션과 협업 플랫폼입니다. Omniverse는 창고와 공장, 물리적/생물학적 시스템, 5G 엣지, 로봇, 자율주행 자동차, 아바타 등의 디지털 트윈(digital twin) 시뮬레이션에 활용되죠. NVIDIA는 Omniverse 기반의 슈퍼컴퓨터인 E-2(Earth-2)의 구축 계획을 발표한 바 있는데요. E-2는 지구의 디지털 트윈을 만들어 기후 변화를 예측하는 임무에 전념할 예정입니다.

클라우드 네이티브 슈퍼컴퓨팅

데이터 애널리틱스와 AI, 시뮬레이션과 가상화 전반에서 슈퍼컴퓨터가 담당하는 워크로드가 증가하는 추세입니다. 이에 따라 크고 복잡한 시스템의 운영에 수반되는 통신 작업을 지원해야 할 CPU의 부담 또한 늘고 있죠.

데이터처리장치(DPU)는 이러한 프로세스의 일부를 오프로드하여 CPU의 스트레스를 줄입니다. 완전 통합형의 데이터센터온칩(data-center-on-a-chip) 플랫폼인 NVIDIA BlueField DPU는 호스트 프로세서 대신 데이터센터의 인프라 업무를 오프로드, 관리해 슈퍼컴퓨터를 보다 효율적으로 조정하고 보안을 강화합니다.

BlueField DPU 아키텍처와 NVIDIA Quantum InfiniBand 플랫폼이 결합하면 최적의 베어메탈(bare-metal) 성능을 제공하는 한편, 네이티브 환경에서 다중 노드의 테넌트(tenant) 격리를 지원합니다.

NVIDIA Quantum InfiniBand 플랫폼은 예측이 가능한 베어메탈 방식의 성능 격리 기능을 제공합니다.

이 새로운 시스템들은 제로 트러스트(zero-trust) 방식의 접근법 덕분에 더욱 안전한데요. BlueField DPU가 인프라에서 애플리케이션들을 격리하고, 최신 BlueField 소프트웨어 플랫폼인 NVIDIA DOCA 1.2가 차세대 분산 방화벽과 회선당 데이터 암호화의 폭넓은 사용을 지원합니다. 그리고 NVIDIA Morpheus는 데이터센터 내에 침입자가 들어와 있다는 가정 하에 딥 러닝 기반 데이터 사이언스를 활용해 침입자의 활동을 실시간으로 감지합니다.

NVIDIA Quantum-2는 400Gbps InfiniBand 플랫폼으로, Quantum-2 스위치와 ConnectX-7 NIC, BlueField-3 DPU, 그리고 새로운 네트워킹 아키텍처를 위한 새로운 소프트웨어로 구성됩니다. NVIDIA Quantum-2는 베어메탈 방식 고성능 컴퓨팅의 장점과 안전한 멀티테넌시(multi-tenancy)를 제공해 차세대 슈퍼컴퓨터들이 클라우드 네이티브를 기반으로 더욱 안전하고 효과적으로 활용될 수 있도록 지원합니다.