미국 국립에너지연구소 과학컴퓨팅센터(NERSC)의 슈퍼컴퓨터 펄머터(Perlmutter)에 6,159개의 NVIDIA A100 Tensor Core GPU가 탑재됐습니다. 펄머터는 7,000명 이상의 NERSC 연구자들에게 4엑사플롭스의 AI 성능을 제공합니다.
펄머터는 16비트와 32비트 혼합정밀 수학 작업을 세계에서 가장 빠르게 수행합니다. 이러한 성능은 올해 구축완료 예정인 로렌스 버클리 국립 연구소(Lawrence Berkeley National Laboratory)의 초고속 슈퍼컴퓨터에서도 제공하지 못하는 성능이죠. 24개 이상의 애플리케이션이 펄머터에서 바로 사용될 예정이며, 천체물리학, 기후과학 등 과학 연구 가속화에 활용됩니다.
3D 우주지도
펄머터는 현존하는 가장 방대한 3D 우주 지도를 생성하는 작업에 활용될 예정입니다. 이는 한 번의 노출로 5,000개의 은하를 포착할 수 있는 우주 카메라의 일종인 암흑 에너지 분광기(DESI)의 데이터 처리를 돕죠.
연구원들은 다음날 밤의 DESI 위치 선정과, 수십 개의 노출을 포착하기 위해 펄머터의 빠른 GPU 연산속도를 활용합니다. 이전 시스템에서는 1년 분량의 데이터를 처리하는 데 몇 주 또는 몇 달이 소요됐지만, 펄머터는 며칠 만에 작업을 완료할 수 있습니다. NERSC 데이터 설계자인 롤린 토마스(Rollin Thomas)는 “GPU를 통해 준비 작업 속도가 20배 향상돼 매우 만족스럽습니다”라고 소감을 밝혔죠.
DESI의 지도는 가속화되고 있는 우주 팽창 이면에 숨겨진 신비로운 물리학인 암흑 에너지를 밝히기 위한 목적으로 사용됩니다. 암흑 에너지는 2011년 노벨상을 수상한 버클리 연구소(Berkeley Lab)의 천재 물리학자인 사울 펄머터(Saul Perlmutter)의 연구를 통해 발견됐으며, 펄머터 슈퍼컴퓨터는 그의 이름에서 따왔습니다.
AI와 HPC를 혼합한 슈퍼컴퓨터
이외에도 펄머터는 NERSC의 새로운 연구 프로젝트에 활용될 예정입니다. 더 향상된 배터리와 바이오 연로에 필요한 원자 상호작용을 발견하는 재료 과학 연구에 활용됩니다.
기존 슈퍼컴퓨터는 퀀텀 에스프레소(Quantum Espresso)와 같은 프로그램을 통해 몇 나노 초 동안 일부 원자에 대한 시뮬레이션을 생성하는 데 필요한 수학을 간신히 작업할 수 있었습니다. 그러나 머신 러닝을 통해 매우 정확한 시뮬레이션이 도입되면서, 과학자들이 더 많은 원자를 연구하는 데 많은 시간이 소요됐습니다.
NERSC 애플리케이션 성능 전문가 브랜드 쿡(Brandon Cook)은 “과거에는 베터리 인터페이스와 같은 대형 시스템에 대한 완벽한 원자 시뮬레이션 작업을 하는 것이 불가능했지만, 이제 펄머터를 사용해 해당 작업이 가능해졌습니다”라고 말했죠.
A100 텐서 코어는 시뮬레이션을 위한 이중-정밀 부동 소수점 연산과 딥러닝에 필요한 혼합 정밀도 계산을 모두 가속화합니다. NVIDIA V100 GPU를 활용하고 있는 버클리GW(BerkeleyGW) 또한 작년 11월 고든 벨(Gordon Bell)을 수상하며 NERSC의 인정을 받았습니다. NERSC에서 프로젝트를 이끌고, 애플리케이션 성능을 감독하는 잭 데슬리프(Jack Deslippe)는 NVIDIA A100 GPU의 추가적인 기능이 이러한 연구를 새로운 차원으로 향상시킬 것이라고 말했습니다.
펄머터를 위한 소프트웨어
젝 데슬리프는 “소프트웨어는 펄머터의 전략적 구성요소입니다. 펄머터에서 사용되는 NVIDIA HPC 소프트웨어 개발 키트(SDK)는 OpenMP와 기타 인기 프로그래밍 모델을 지원합니다”라고 밝혔죠. 또한 데이터 사이언스를 위한 GPU 오픈소스 코드인 RAPIDS는 NERSC의 파이썬 프로그램팀의 작업을 가속화할 것입니다. 이는 NERSC의 코리(Cori) 슈퍼컴퓨터의 모든 네트워크 트래픽 분석작업을 CPU 대비 600배 빠르게 분석했습니다.
팬데믹으로 인한 도전과제의 해결
코로나19 팬데믹에도 불구하고 펄머터는 정상적으로 구축될 예정입니다. 그러나 시스템의 엑사스케일급 애플리케이션과 코드를 기반으로 재택근무를 하는 연구원들을 위해 해커톤을 진행하는 방법과 같은 중요한 단계에 대해 재고해야 했습니다.
HPE 엔지니어들은 펄머터의 1단계 조립을 도왔고, NERSC 직원과 협력해 새로운 시스템을 수용할 수 있도록 설비를 업그레이드했습니다. 롤린 토마스는 “우리는 특히 모든 코로나19 관련 프로토콜 하에 시스템을 발전시키는 현장 직원들의 노력에 매우 감사합니다”고 말했습니다.
NVIDIA의 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “AI와 고성능 컴퓨팅을 융합하는 펄머터의 능력은 재료과학과 양자 물리학뿐만 아니라 기후 예측, 생물학 연구 등에 이르기까지 광범위한 분야에서 돌파구를 마련할 것입니다”라고 말했습니다.
NERSC의 데이터분석서비스그룹 대표대행 와히드 빔지(Wahid Bhimji)는 “과학용 AI는 미 에너지부에서 성장을 이루고 있는 분야로, 다양한 개념 검증이 입자물리학, 재료과학, 바이오에너지 분야 등의 생산을 위한 활용 사례로 넘어가고 있습니다”고 말했죠.
또한, “사람들이 점점 더 큰 신경망 모델을 탐색하고 있으며 더 강력한 리소스에 대한 액세스를 요구하고 있습니다. 이 때문에 A100 GPU와 더불어 올플래시 파일 시스템, 스트리밍 데이터 기능을 갖춘 펄머터는 AI에 대한 이러한 요구를 적절한 시기에 충족하고 있습니다”라고 덧붙였습니다.
펄머터를 통해 작업을 진행하고자 하는 연구자들은 시스템에 대한 액세스 요청을 제출할 수 있습니다.