유럽과 미국 전역에서 고성능 컴퓨팅(HPC) 개발자들은 NVIDIA BlueField-2 DPU 내부에 있는 Arm 코어와 가속기의 힘으로 슈퍼컴퓨터를 슈퍼차징하고 있습니다.
미국 로스 알라모스 국립연구소(Los Alamos National Laboratory, LANL)에서 NVIDIA와의 다년간 광범위한 협업의 한 부분으로, 전산 다중물리(Computational Multi-Physics) 애플리케이션의 30배 속도를 목표로 합니다.
LANL 연구원들은 NVIDIA Quantum InfiniBand 네트워크에서 실행되는 데이터 처리 장치(DPU)를 사용하여 엄청난 성능 향상을 예상하고 있습니다. 이들은 BlueField 및 NVIDIA DOCA 소프트웨어 프레임워크를 사용한 컴퓨팅 스토리지, 패턴 매칭 등의 기술을 개척할 것입니다.
DPU를 위한 오픈 API
이러한 노력을 통해 누구나 DPU를 활용하는 데 사용할 수 있는 애플리케이션 인터페이스인 OpenSNAPI를 정의할 수 있는데요. 이것은 유니파이드 커뮤니케이션 프레임워크(Unified Communication Framework)의 프로젝트입니다. 유니파이드 커뮤니케이션 프레임워크는 Arm, IBM, NVIDIA, 미국 국립 연구소(U.S. national labs)와 미국 대학들을 포함한 HPC 애플리케이션을 위한 이기종 컴퓨팅(heterogeneous computing)을 가능하게 하는 컨소시엄입니다.
LANL는 DPU 기반 스토리지 시스템 덕분에 이미 인네트워크(in-network) 컴퓨팅의 힘을 느끼고 있습니다.
엑셀러레이티드 박스 오브 플래시(Accelerated Box of Flash, ABoF)는 솔리드 스테이트(solid state) 스토리지, DPU, 인피니밴드 가속기를 결합하여 리눅스(Linux) 파일 시스템의 성능에 중요한 부분을 가속화하는데 도움을 줍니다. 유사한 스토리지 시스템보다 최대 30배 더욱 빠르며, LANL 인프라의 핵심 구성 요소가 될 예정입니다.
최근 LANL 블로그를 통해 한 연구원은 ‘ABoF를 스토리지 근처에 컴퓨테이션을 배치하면 데이터 이동이 최소화되고 시뮬레이션과 데이터 분석 파이프라인의 효율성이 향상된다’고 전했죠.
클라우드 네이티브 슈퍼(Cloud-Native Super)
미국 텍사스 첨단 컴퓨팅 센터(Texas Advanced Computing Center, TACC)는 델 파워엣지(Dell PowerEdge) 서버에 BlueField-2를 최근에 채택했습니다. 이는 인피니밴드 네트워크의 DPU를 사용하여 론스타6(Lonestar) 시스템을 클라우드 네이티브 슈퍼컴퓨팅을 위한 개발 플랫폼으로 만들 예정입니다.
TACC의 론스타 6는 텍사스 A&M 대학교, 텍사스 공과 대학교(Texas Tech University), 노스 텍사스 대학교(University of North Texas)의 다양한 HPC 개발자들과 수많은 연구 센터와 교수진을 제공합니다.
MPI 가속화
미국 오하이오 주립 대학(Ohio State University)의 연구원들은 DPU가 어떻게 HPC의 가장 인기 있는 프로그래밍 모델 중 하나를 최대 21% 더 빠르게 실행할 수 있는지를 보여줬습니다. 메시지 전달 인터페이스(MPI)의 중요 부분을 오프로드하여, 많은 대규모 HPC 시뮬레이션에 사용되는 라이브러리인 P3DFFT를 가속화했죠.
자신의 팀의 MVPICH 오픈 소스 소프트웨어를 사용하여 DPU 작업을 이끈 오하이오 주립 대학의 컴퓨터 공학 교수 다발레스워 K. (DK) 팬더(Dhabaleswar K. (DK) Panda)는 “DPU는 바쁜 경영진의 업무를 처리하는 조수와 같으며, 모든 워크로드를 더 빠르게 실행할 수 있기 때문에 주류가 될 것입니다”라고 말했습니다.
HPC 센터, 클라우드 내 DPU
약물 발견이나 항공기 설계와 같은 HPC 시뮬레이션을 실행하는 슈퍼컴퓨터의 경우, 두 자릿수 상승 효과가 크게 작동합니다. 그리고 여러 HPC 센터로부터 코드 요청을 받은 팬더는 “클라우드 서비스는 고객의 생산성을 높이기 위해 이러한 이점을 활용할 수 있습니다”고 말했죠.
NVIDIA SHARP와 같은 기능을 가진 Quantum InfiniBand 네트워크는 그의 작업을 가능하게 합니다. 팬더는 “다른 사람들은 인네트워크 컴퓨팅에 대해 이야기하지만, InfiniBand는 오늘날 이것을 도웁니다”라고 말했습니다.
로드 밸런싱(Load Balancing)을 수행하는 더럼 대학
유럽의 여러 연구팀이 BlueField DPU를 사용해 MPI, 기타 HPC 워크로드를 가속화하고 있습니다. 예를 들면 영국 북부의 더럼 대학(Durham University)은 16노드의 델 파워엣지 클러스터에서 BlueField DPU를 사용하여 MPI 작업의 로드 밸런싱을 위한 소프트웨어를 개발하고 있습니다. 이 프로젝트의 수석 조사원인 토비아스 바인치를(Tobias Weinzierl)은 “이번 작업은 전 세계의 HPC 시설을 위해 더 나은 알고리즘을 보다 효율적으로 처리할 수 있는 길을 열어줄 것”이라고 말했죠.
뭔헨과 케임브리지의 DPU
케임브리지, 런던, 뮌헨의 연구원들도 DPU를 사용하고 있습니다. 유니버시티 칼리지 런던(University College London)은 BlueField-2 DPU에서 호스트 시스템의 작업을 예약하는 방법을 연구하고 있죠. 예를 들면 호스트 프로세서 간에 데이터를 이동하여 필요할 때 사용할 수 있는 기능입니다.
CSD3(Cambridge Service for Data Driven Discovery)의 델 파워엣지 서버 내부의 BlueField DPU는 호스트 CPU에서 보안 정책, 스토리지 프레임워크, 기타 작업을 오프로드하여 시스템 성능을 극대화합니다.
뮌헨 공과대학(Technical University of Munich)의 컴퓨터 아키텍처 및 병렬 시스템 그룹의 연구원들은 EuroHPC 프로젝트의 일부로 DPU를 사용해, MPI 및 운영 체제 작업을 오프로드하는 방법을 모색하고 있죠.
미국 조지아텍(Georgia Tech)의 연구원들은 BlueField-2 DPU를 사용하여 분자 역학 연구를 가속화하기 위해 샌디아 국립연구소(Sandia National Laboratory)와 협력하고 있습니다. 지금까지의 이들의 연구를 설명하는 논문은 알고리즘이 시뮬레이션의 정확성을 잃지 않고 최대 20%까지 가속될 수 있다는 것을 보여줍니다.
네트워크 확장
이달 초 일본의 연구원들은 NVIDIA Quantum-2 InfiniBand 플랫폼을 기반으로 당사의 가장 빠르고 스마트한 네트워크인 NVIDIA H100 Tensor Core GPU를 사용하는 시스템을 발표했습니다.
NEC는 쓰쿠바 대학(University of Tsukuba)의 컴퓨터 과학 센터를 위해 약 6 페타플롭, H100 기반 슈퍼컴퓨터를 구축할 예정입니다. 연구원들은 이를 기후학, 천체물리학, 빅데이터, AI 등에 사용할 것입니다. 한편, 팬더와 같은 연구원들은 이미 BlueField-3 DPU의 코어를 어떻게 사용할지에 대해 생각하고 있습니다.
팬더는 “이는 고등학교 졸업을 한 조교가 아니라 대학 학위를 가진 조교를 고용하는 것과 같아서, 점점 더 많은 오프로딩 작업이 이루어지기를 바랍니다”고 말했습니다.