NVIDIA의 가속 컴퓨팅과 AI 플랫폼을 사용한 4개의 연구팀이 코로나19 관련 연구를 통해 고든벨(Gordon Bell) 상과 특별상의 최종 후보자로 선정됐습니다.
각 팀은 10억 개 원자에 대한 2개의 시뮬레이션, 제2형 중증급성호흡기증후군 코로나바이러스(SARS-CoV-2)의 작동 원리에 대한 두 건의 새로운 발견과 신약 발견 속도를 높이는 최신 AI 모델 등 다양한 성과에 NVIDIA의 AI와 가속 컴퓨팅을 사용했습니다.
코로나19 연구 관련 특별상 최종 후보자는 AI를 통해 여러 시뮬레이션을 연계하여 바이러스가 숙주 내에서 복제되는 방식을 고도의 정확성으로 증명했습니다.
아르곤 국립연구소(Argonne National Laboratory)의 계산 생물학자인 아르빈드 라마나단(Arvind Ramanathan)이 이끄는 이 연구는 단백질 구조를 연구하는 데 사용되던 툴의 해상도를 높이는 방법을 제시합니다. 이는 바이러스 확산을 막는 방법에 대한 새로운 정보를 제공할 수 있죠.
미국과 영국에 위치한 십여 곳의 기관에서 파견된 이 연구팀은 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise)가 구축한 NVIDIA A100 구동 시스템인 Perlmutter와 아르곤 국립연구소의 NVIDIA DGX A100 시스템 등에서 실행되는 워크플로우를 설계했습니다.
연구팀은 논문에서 “통합 생물학 분야에서 멀티사이트 데이터 분석과 시뮬레이션을 수행할 수 있다면 현재 전송하기 힘든 대규모 실험 데이터를 활용하는 데 매우 유용할 것입니다”라고 설명했습니다.
연구팀은 연구의 일환으로 GPU에서 인기 있는 NAMD 프로그램을 사용해 분자 역학 연구를 가속화하는 기술을 개발했습니다. 또한 NVIDIA NVLink를 활용해 “기존 HPC 네트워크 인터커넥트 또는 PCIe 전송이 제공했던 속도 이상으로 데이터 속도를 높였습니다”라고 전했죠.
높은 충실도로 시뮬레이션 되는 10억 개의 원자
사우스 플로리다 대학(University of South Florida) 물리학 교수인 이반 올리닉(Ivan Oleynik)이 이끄는 연구팀은 최초로 10억 개의 원자를 매우 정확한 시뮬레이션으로 만든 공로로 고든벨 상의 최종 후보자로 지명됐는데요. 연구팀은 작년 고든벨 우승자보다 23배 높은 정확도로 기록을 갱신했죠.
이반 올리닉은 “전에는 볼 수 없었던 현상을 발견하게 되어 매우 기쁘며 정말 큰 성과를 내게 되어 자랑스럽습니다”라고 소감을 전했는데요.
극한의 온도와 압력 조건에서 실행되는 탄소 원자에 대한 시뮬레이션은 새로운 에너지원을 개발하는 기회를 열어줄 뿐만 아니라 멀리 있는 행성의 구성을 밝히는 데 도움을 줄 수 있습니다. 더불어, 이번 시뮬레이션은 양자 수준의 정확도로 원자 간의 힘을 보여주었다는 점에서 주목할 만합니다.
이반 올리닉은 “이러한 정확도는 강력한 GPU 슈퍼컴퓨터에 머신 러닝 기술을 적용해야만 나올 수 있는 결과입니다. AI는 과학 분야에 혁명을 가져오고 있습니다”라고 말했습니다.
이반 올리닉 연구팀은 세계에서 가장 강력한 슈퍼컴퓨터 중 하나이자 IBM이 구축한 미국 에너지부 서밋(Summit) 슈퍼컴퓨터에서 4,608개의 IBM 파워(Power) AC922 서버와 27,900개의 NVIDIA GPU를 사용했는데요. 이는 연구팀의 코드가 거의 100% 효율로 200억개 이상의 원자를 시뮬레이션할 수 있다는 것을 입증한 것입니다.
해당 코드는 재료 과학의 지평을 넓이고자 하는 연구자라면 누구나 사용할 수 있습니다.
치명적인 비말의 내부 분석
10억 개의 원자 시뮬레이션을 통한 코로나19 관련 연구로 두 번째 최종후보자로 선정된 또 다른 연구팀은 공중에 떠있는 비말(droplet)의 델타 변형을 증명했습니다. 이를 통해 에어로졸을 최초로 원자 수준으로 분석하며 코로나19와 그 외 질병을 확산하는 생물학적 원인을 밝혔죠.
특별상 부분의 작년 우승자인 캘리포니아 샌디에이고 대학(University of California San Diego) 연구원 롬미 아마로(Rommie Amaro)가 이끄는 연구팀 논문에 따르면, 이 연구는 “폐의 깊숙한 내부에서 바이러스 결합과 공기 중에 떠다니는 다른 병원균에 대한 연구에 큰 의의를 줍니다”라고 설명합니다.
롬미 아마로는 “이번 연구는 고성능컴퓨팅(HPC)과 다양한 수준에서 결합된 AI가 어떻게 성능을 효과적으로 크게 향상시켜 복잡한 생물학적 시스템을 이해하고 분석할 수 있는 지 입증합니다”라고 말했죠.
연구원들은 델 테크놀로지스(Dell Technologies)가 텍사스 첨단 컴퓨팅센터(Texas Advanced Computing Center)와 오라클 클라우드 인프라(OCI, Oracle Cloud Infrastructure)의 상용 시스템을 위해 구축한 슈퍼 컴퓨터인 서밋의 NVIDIA GPU를 사용했습니다.
연구팀은 “고성능 컴퓨팅과 클라우드 리소스를 사용하면 핵심적인 과학 문제를 해결하기 위한 시간을 크게 단축하는 것은 물론 연구자들 간에 연결되고 복잡한 협업을 매우 효율적으로 개선할 수 있습니다”라고 강조했습니다.
신약 발견을 지원하는 NVIDIA의 기술
오크리지 국립연구소(Oak Ridge National Laboratory)의 코로나19관련 연구 상 최종 후보자는 신약 개발을 위한 화학 화합물 선별에 자연어 처리(NLP)를 적용했습니다.
해당 연구팀은 지금까지 이 작업에 적용된 가장 큰 데이터 세트인 분자 96억개를 포함한 데이터 세트를 사용해 신약 발견 속도를 높이는 버트(BERT) NLP 모델을 단 2시간 만에 훈련시켰죠. 기존에 분자 11억개의 데이터 세트로 모델을 훈련시키는데 가장 빨랐던 작업시간은 4일이었습니다.
이번 연구는 뛰어난 603페타플롭의 성능을 내기 위해 서밋 슈퍼컴퓨터에서 24,000개 이상의 NVIDIA GPU를 사용했는데요. 현재 훈련 작업이 완료됐으며, 해당 모델은 단일 GPU에서 실행되면서 연구원들이 코로나19와 그 외 질병을 억제할 수 있는 화학 화합물을 찾는 데 기여하고 있습니다.
오크리지 국립연구소의 계산 과학자 옌스 글레이저(Jens Glaser)는 “이 모델을 암 질병 신호 경로에 적용하고 싶어하는 협업자들이 있습니다”라고 전했는데요.
연구를 이끈 과학 연구원 앤드류 블랑카드(Andrew Blanchard)는 “이 정도 규모의 데이터 훈련은 이제 시작에 불과하며 머지않아 분자 1조 개를 활용할 수 있기를 기대합니다”라고 말했습니다.
풀-스택 솔루션 활용
AI와 가속 컴퓨팅을 위한 NVIDIA 소프트웨어 라이브러리는 연구팀이 매우 신속하게 연구작업을 완료하도록 지원합니다.
옌스 글레이저는 “전문 코드 없이도 표준 스택을 사용할 수 있었기에 우리는 GPU의 Tensor cores를 위해 작업을 완전히 최적화할 필요가 없었습니다”라고 설명했습니다.
옌스 글레이저를 비롯한 여러 최종 후보자들은 이번 성과를 통해 “인간의 삶에 영향력을 줄 수 있는 의미 있는 연구를 할 기회를 갖는 것은 과학자로서 매우 감동스러운 일입니다”라고 소감을 전했습니다.
11월 15일에 방영된 슈퍼컴퓨팅 2021(SC21) 특별 연설을 통해 보다 자세한 내용을 확인할 수 있으며, 이후 온디맨드 영상으로도 시청할 수 있습니다. NVIDIA의 마크 해밀턴(Marc Hamilton)이 최신 뉴스와 첨단 기술에 대해 전할 예정이며, 이후 NVIDIA 전문가들과 함께하는 실시간 Q&A 패널도 만날 수 있습니다.