엔비디아 A100 GPU 채용한 6개 글로벌 슈퍼컴퓨터는 무엇을 할까

엔비디아의 차세대 GPU 아키텍처 암페어(Ampere)를 최초 도입한 곳 중 6 곳의 글로벌 슈퍼컴퓨터 센터를 소개합니다.

미국과 독일에 위치한 슈퍼컴퓨터 센터들은 엔비디아 암페어 도입으로 천체 물리학에서 바이러스 미생물학에 이르는 다양한 분야에서 엑사스케일 시대를 열 예정입니다.

6곳의 슈퍼컴퓨터 센터에는 혁신적인 엔비디아 암페어 아키텍처를 기반으로 설계된 하이엔드 GPU인 A100가 약 13,000개 사용될 계획인데요.

모든 GPU는 64비트 부동소수점(floating point) 연산을 사용하는 시뮬레이션을 위해 최대 250페타플롭(PF) 이상의 성능을 제공합니다. 혼합 정밀 수학을 사용하고 희소성(sparsity) 지원을 위해 A100 GPU를 사용하는 인공지능(AI) 추론 작업을 위해서는 무려 8.07엑사플롭급의 성능을 제공합니다.

연구원들은 이 엄청난 컴퓨팅 파워를 이용해 과학을 다각도로 발전시킬 것입니다. 이전 대비 더 방대한 모델을 시뮬레이션하고, 고도화된 딥 네트워크를 훈련 · 배포하며, AI 지원 시뮬레이션이라는 새로운 하이브리드 분야를 주도할 계획이죠.

아르곤 국립 연구소가 선택한 엔비디아 DGX-A100 이미지 제공: 아르곤 국립 연구소(ANL)

예를 들어, 미국 아르곤 국립 연구소(Argonne National Laboratory)의 연구원들은 150만 개의 원자로 구성된 코로나 바이러스 표면에 있는 단백질 돌기의 핵심 부위를 시뮬레이션 하는 방식으로 코로나19 백신을 연구할 것입니다.

24개의 엔비디아 DGX A100 시스템 클러스터를 사용할 계획인 아르곤 국립 연구소의 전산 생물학자 아빈 라마나딘(Arvind Ramanathan)은 코로나 바이러스 분자를 두고 “해독하기가 정말 쉽지 않습니다. 하지만 엔비디아 A100로 사람이 어떻게 코로나 바이러스에 감염되는 지 연구하는데 필요한 바이러스 분자 서브시스템 시뮬레이션을 가속화할 수 있죠”라며, 또 다른 연구에 대해서는 “수백만에서 수십억 개의 약을 한번에 스캐닝하는 것이 가능해지면서 의약품 개발이 비약적으로 발전할 겁니다. 두 개의 단백질이 어떻게 하나로 결합되는지 등 과거엔 불가능 했던 연구도 가능해질 수 있죠”라고 덧붙였습니다.

연구개발에 AI를 접목한 A100

라마나딘 연구원은 “현재 추진중인 연구의 상당부분은 컴퓨터에서 시뮬레이션하기가 쉽지 않습니다. 그래서 AI를 통해 다음 샘플링을 어느 부분에 언제 진행할지 지능적인 도움을 받고 있죠”라고 했습니다.

AI를 활용한 시뮬레이션은 최근 과학자들 사이에서 트렌드로 자리잡고 있습니다. 라마나딘 연구원은 GPU를 사용하면 생물학 샘플을 “최소 100배 이상” 빠르게 처리할 수 있을 것이라고 덧붙였습니다.

미국 에너지부 버클리 국립 연구소의 NERSC(국립에너지연구소 과학컴퓨팅센터)는 미국 전역의 1세대 A100 이용자 중에서 가장 큰 고객이 될 것으로 보입니다. 캘리포니아 버클리 소재의 이 센터는 프리-엑사스케일(pre-exascale) 슈퍼컴퓨터인 펄머터(Perlmutter)에 6,200 개의 GPU를 배포하기 위해 휴렛팩커드엔터프라이즈(HPE)와 협력하고 있습니다.

NERSC 센터장 스도프 도산지(Sudip Dosanjh)는 “NERSC의 과학부서와 알고리즘 부서에서 현재 사용중인 코리(Cori) 시스템의 KNL CPU 노드를 V100 GPU 한 개로 대체했을 때 성능이 최대 5 배 빨라졌습니다. 슈퍼컴퓨터 펄머터에 A100를 탑재할 경우 성능이 훨씬 향상될 것으로 기대하고 있습니다”고 전했습니다.

시뮬레이션과 AI 프로젝트를 추진 중인 엑사스케일 컴퓨팅 팀

NERSC의 엑사스케일 컴퓨팅 전담팀은 대규모 시뮬레이션, 데이터 분석, 딥 러닝을 활용하는 약 30 개의 펄머터 프로젝트를 계획하고 있습니다. 이 중에는 강화 학습을 통해 광원 실험을 제어하는 프로젝트 등 HPC와 AI를 결합해 사용하는 프로젝트도 있고, 고에너지 물리 탐지기에서 많은 비용이 드는 시뮬레이션을 재현하기 위해 생성 모델을 사용하는 프로젝트도 있습니다.

NERSC의 HPC 애플리케이션 중 두 개는 이미 A100 GPU의 배정밀도 텐서 코어(Tensor Cores)를 탑재해 시제품화됐습니다. 전 세대 볼타(Volta) GPU 대비 성능이 대폭 개선됐죠.

세계 최대 GPU 컨퍼런스 ‘GTC 디지털’의 한 세션에서 NERSC소속 HPC 성능 엔지니어 크리스토퍼 데일리(Christopher Daley)가 “1만가지 병렬 처리에 최적화된 소프트웨어 펄머터 GPU가 차세대 엑사스케일 시스템에서 운용될 것입니다”이라고 밝혔습니다. NERSC는 천체 물리학, 지구과학, 융합 에너지, 유전체학과 같은 분야 등 거의 수천 가지에 달하는 과학 애플리케이션을 지원합니다.

NERSC 수석 설계자 니콜라스 라이트(Nicholas Wright)는 “펄머터 슈퍼컴퓨터에는 MPI, 오픈 MP(OpenMP), 오픈ACC(OpenACC), 쿠다CUDA, 최적화된 수학 라이브러리 등 사용자가 필요하고 기대하는 모든 프로그래밍 모델을 지원하는 컴파일러가 필요하죠. 엔비디아 HPC SDK는 이 모든 조건을 충족합니다”라고 말했습니다.

독일 연구소, 인간의 뇌를 매핑하다

프랑스 슈퍼컴퓨터 제조기업 아토스(Atos)가 독일 율리히(Jülich) 슈퍼컴퓨팅센터용으로 제작한 새로운 70 페타플롭스(PF) 시스템에 사용된 A100는 먼저 AI 프로젝트에 집중적으로 사용될 것입니다.

그 중 딥 레인(Deep Rain) 프로젝트는 비교적으로 느린 대규모 대기 시뮬레이션을 사용하는 기존 시스템을 보완하면서 단기간에 빠른 기상 예측을 제공하기 위해 설계됐습니다. 그 외로 수천 개의 고해상도 2D 뇌 이미지를 딥 러닝으로 조합해 인간 두뇌의 섬유 지도(atlas)를 구축하는 프로젝트도 추진될 계획입니다.

율리히 센터가 도입한 이 새로운 A100 시스템은 물질을 구성하는 아원자 단위 쿼크(quark)의 강력한 응집력 연구에 크게 기여할 것입니다. 거시적인 측면에서는 기후 과학 프로젝트를 통해 지표면과 지하수 흐름 모델링에도 기여할 것입니다.

율리히 센터의 애플리케이션 기술 개발 연구팀을 관리하는 이론 물리학자 더크 플라이터(Dirk Pleiter)는 “이런 프로젝트의 경우 대다수가 메모리 면에서 한계에 부딪힙니다. 그래서 우리 센터에서는 A100의 메모리 풋프린트와 메모리 대역폭 확대에 아주 큰 관심을 갖고 있죠”라고 말했습니다.

배정밀도를 최대 2.5배까지 가속화하는 GPU의 새로운 기능도 연구원들 사이에서 큰 관심을 받고 있습니다. 플라이터 연구팀장은 “사람들이 고성능 컴퓨팅으로 무엇이 가능한지 알게 되면 GPU 사용에 대한 강력한 동기부여가 생길 것입니다”라고 덧붙였습니다.

대규모 데이터 처리 시스템의 동반자 고속 NV링크

율리히 센터에서 남쪽으로 조금 떨어진 곳에 위치한 카를스루에 공과대학(Karlsruhe Institute of Technology, 이하 KIT)은 엔비디아 멜라녹스(Mellanox) 200Gbit/s 인피니밴드(InfiniBand) 네트워크에 740개의 A100 GPU를 탑재한 새로운 17페타플롭급 시스템을 구축하기 위해 레노버(Lenovo)와 파트너십을 맺었습니다. KIT는 이 시스템을 통해 다음과 같은 난제에 대응할 예정입니다.

기후 과학 목적의 킬로미터 단위의 대기 시뮬레이션
폴딩앳홈(Folding@home) 지원 등 코로나19 대응을 위한 연구
대형 강입자 충돌기(LHC)용 힉스 보손(Higgs boson) 이상의 입자 물리학 연구
리튬 이온 배터리를 대체 가능한 신소재 연구
로보틱스, 언어 처리, 재생 가능 에너지용 AI 애플리케이션 개발

KIT 슈퍼컴퓨팅 센터장 겸 컴퓨터 과학 및 수학 교수인 마틴 프랭크(Martin Frank)는 “KIT에서는 데이터 집약적 시뮬레이션과 AI 워크플로우를 집중적으로 연구하고 있습니다. 그래서 새로운 GPU를 상호 연결하는 3세대 NV링크(NVLink)를 잘 활용하고 있죠. 또한 노드 당 4개 GPU가 아닌 최대 28개 GPU를 효과적으로 제공하는 멀티-인스턴스 GPU 기능에 대한 기대도 큽니다”고 말합니다.

뮌헨 근방에 위치한 막스 플랑크 연구소(Max Planck Institute) 컴퓨터 센터는 레노버와 합작해 768개의 NVIDIA A100 GPU로 구동되는 레이븐-GPU(Raven-GPU)라는 슈퍼컴퓨터 시스템을 구축하고 있습니다. 레이븐-GPU는 천체 물리학, 생물학, 이론 화학, 고급 재료학과 같은 분야에 사용될 것입니다. 막스 플랑크 연구소는 연말까지 레이븐-GPU를 설치하는 것을 목표로 하고 있으며 현재 A100에 최적화된 애플리케이션 지원 요청을 받고 있습니다.

사이버 보안 위협에 대응하는 인디애나 대학 연구소

마지막으로 미국의 인디애나 대학교는 6페타플롭급의 슈퍼컴퓨터 ‘빅 레드 200’(Big Red 200)을 구축하고 있습니다. 빅 레드 200이 완성되면 인대애나 대학은 미국에서 가장 빠른 슈퍼 컴퓨터를 갖고 있는 대학이 될 겁니다. 빅레드 200 슈퍼컴퓨터에는 256개의 A100 GPU가 탑재됩니다.

작년 6월 발표에 따르면 인디애나 대학은 HPE의 크레이 샤스타(Cray Shasta) 기술을 최초로 채택한 학교 중 한 곳이 될 것입니다.

빅레드 200 슈퍼컴퓨터는 AI를 활용해 사이버 보안 위협에 대처할 것입니다. 또한 유전학 분야의 난제를 해결하는데 기여해 개인 맞춤형 진료를 지원하고, 한 발 더 나아가 기후 모델링, 물리학, 천문학 연구에도 기여할 예정입니다.

메인 이미지: NERSC의 펄머터 슈퍼 컴퓨터의 거점이 된 버클리국립연구소(LBL) 시왕홀(Shyh Wang Hall)