엔비디아 A100 텐서 코어 GPU, GenSLM 모델 훈련 위한 슈퍼컴퓨터 지원

새로운 데모를 통해 사용자는 게놈 규모의 언어 모델 시각화 탐색 가능
by NVIDIA Korea
엔비디아 A100 텐서 코어 GPU, GenSLM 모델 훈련 위한 슈퍼컴퓨터 지원

GenSLM 모델을 훈련하기 위해 엔비디아 A100 텐서 코어 GPU(A100 Tensor Core GPU)기반 슈퍼컴퓨터를 사용했다고 밝혔습니다. 아울러 콜로라도주 덴버에서 열렸던 SC23에서 엔비디아는 가속 컴퓨팅 분야의 새롭고 획기적인 연구 결과를 공유했습니다.

널리 알려진 게놈 데이터용 대규모 언어 모델이 코로나19의 원인 바이러스인 SARS-CoV-2의 실제 변종과 매우 유사한 유전자 서열을 생성하는 능력을 증명했습니다.

지난해 고성능 컴퓨팅 기반 코로나19 연구 부문에서 고든벨(Gordon Bell) 상을 수상한 GenSLM 모델은 DNA와 RNA의 구성 요소인 뉴클레오티드 서열(nucleotide sequences) 데이터 세트를 기반으로 학습되었습다. 이 모델은 아르곤 국립 연구소(Argonne National Laboratory), 엔비디아, 시카고 대학교(University of Chicago)와 기타 여러 학계와 상업 협력업체의 연구원들에 의해 개발되었습니다.

연구진은 GenSLM이 생성한 뉴클레오티드 서열을 되돌아본 결과, 팬데믹 첫해부터 코로나19 바이러스 게놈만 훈련했음에도 불구하고 AI가 생성한 서열의 특정 특성이 올해 유행한 실제 에리스(Eris)와 피롤라(Pirola) 변종과 거의 일치하는 것을 발견했습니다.

이 프로젝트의 수석 연구원이자 아르곤의 계산 생물학자인 아르빈드 라마나단(Arvind Ramanathan)은 “저희 모델의 생성 과정은 매우 단순하며, 새로운 코로나19 변종이 어떤 모습일지에 대한 구체적인 정보나 제약 조건이 부족합니다. AI가 훈련 과정에서 알파와 베타 변종만 봤음에도 불구하고 최근 코로나19 변종에 존재하는 유전자 돌연변이의 종류를 예측할 수 있다는 것은 AI의 능력을 강력하게 입증하는 것입니다”이라고 밝혔습니다.

GenSLM은 자체 염기서열을 생성하는 것 외에도 변종을 구분함으로써 서로 다른 코로나19 게놈 염기서열을 분류하고 클러스터링할 수 있습니다. 또한 엔비디아의 가속 소프트웨어 허브인 NGC에 곧 공개될 데모에서는 사용자가 코로나19 바이러스 게놈 내 다양한 단백질의 진화 패턴에 대한 GenSLM의 분석 시각화를 살펴볼 수 있습니다.

 

숨은 뜻을 파악해 진화 패턴을 밝혀내다

GenSLM의 핵심 기능은 긴 뉴클레오티드 문자열을 해석하는 능력입니다. 이는 영어 텍스트를 학습한 LLM이 문장을 해석하는 것과 같은 방식으로 DNA의 A, T, G, C 또는 RNA의 A, U, G, C의 서열로 표시되는 문자열을 해석합니다. 이 기능을 통해 모델은 약 30,000개의 뉴클레오티드로 구성된 코로나바이러스의 게놈에서 서로 다른 영역 간의 관계를 이해할 수 있습니다.

데모에서 사용자는 8개의 서로 다른 코로나19 변종 중에서 하나를 선택할 수 있습니다. 이로써 AI 모델이 바이러스 게놈의 다양한 단백질에서 돌연변이를 추적하는 방법을 이해하게 됩니다. 이러한 시각화는 바이러스 단백질 전반의 진화적 결합을 묘사해 특정 변종에서 어떤 게놈 조각이 발견될 가능성이 높은지 강조합니다.

라마나단은 “게놈의 여러 부분이 어떻게 함께 진화하는지 이해하면 바이러스가 어떻게 새로운 취약성이나 내성을 개발할 수 있는지에 대한 정보를 얻을 수 있습니다. 또한 변종에서 어떤 돌연변이가 특히 더 강력한지 모델을 통해 파악하면 과학자들이 특정 변종이 어떻게 인간 면역 체계를 회피할 수 있는지 알아내는 것과 같은 후속 작업을 수행하는 데 도움이 되고 있습니다”고 소감을 밝혔습니다.

GenSLM은 1억 1,000만 개 이상의 원핵생물 게놈 서열로 훈련되었습니다. 박테리아와 바이러스 생물정보학 리소스 센터(Bacterial and Viral Bioinformatics Resource Center)의 오픈 소스 데이터를 통해 약 150만 개의 COVID 바이러스 서열의 글로벌 데이터 세트로 미세 조정되었습니다. 향후 다른 바이러스나 박테리아의 게놈에 대해서도 이 모델을 미세 조정해 새로운 연구 분야에 활용할 수 있습니다.

연구진은 모델 훈련을 위해 엔비디아 A100 텐서 코어 GPU(A100 Tensor Core GPU)기반 슈퍼컴퓨터를 사용했습니다. 이는 아르곤의 폴라리스(Polaris) 시스템, 미국 에너지부의 펄머터(Perlmutter)와 엔비디아 셀린(Selene)을 포함합니다.

작년 SC22 슈퍼컴퓨팅 콘퍼런스에서 GenSLMs 연구팀은 고든벨 상을 받았습니다. 이번 주 덴버에서 열리는 SC23에서 엔비디아는 가속 컴퓨팅 분야의 새롭고 획기적인 연구 결과를 공유했는데요, 전체 일정은 여기서 확인할 수 있으며, 엔비디아의 스페셜 이벤트는 여기서 다시 감상할 수 있습니다.

전 세계 수백 명의 과학자와 엔지니어로 구성된 엔비디아 리서치(Research)는 AI, 컴퓨터 그래픽, 컴퓨터 비전, 자율주행 자동차, 로보틱스 등의 주제에 중점을 둔 팀으로 구성돼 있습니다. 엔비디아 리서치에 대한 자세한 내용과 엔비디아 헬스케어 뉴스는 여기서 구독할 수 있습니다.

아르곤 국립연구소의 바랏 케일(Bharat Kale)이 메인 이미지를 제공했습니다.

 이 연구는 미국 DOE 과학국과 국가 핵안보국의 공동 작업인 엑사스케일 컴퓨팅 프로젝트(Exascale Computing Project, 17-SC-20-SC)의 지원을 받았습니다. 연구는 코로나19 대응에 중점을 둔 DOE 국립 연구소 컨소시엄인 국립 가상 생명공학 연구소(National Virtual Biotechnology Laboratory)를 통해 DOE의 지원을 받았으며, 코로나 바이러스 조치(CARES Act, Coronavirus Aid, Relief, and Economic Security Act)에 따른 자금으로 수행되었습니다.