NVIDIA는 바이오 제약사 아스트라제네카(AstraZeneca), 플로리다대 학술보건센터, UF헬스(UF Health)와 신경망 아키텍처인 트랜스포머(Transformer)를 활용한 새로운 AI 연구 프로젝트를 진행하고 있습니다.
트랜스포머 기반 신경망 아키텍처를 통해 연구자들은 사전훈련 중에도 자가지도 학습을 통해 대규모 데이터 세트를 활용할 수 있는데요.
NVIDIA는 아스트라제네카와 협력하여 약물 발견에 사용되는 화학 구조용 트랜스포머 기반 AI 모델을 개발 중입니다. 이 모델은 영국 내 최대 슈퍼컴퓨터가 될 캠브리지-1(Cambridge-1)에서 실행되는 최초의 프로젝트 중 하나인데요. 오픈소스 형태로 제공되어 연구자와 개발자들은 NVIDIA NGC 소프트웨어 카탈로그를 통해 사용할 수 있으며, NVIDIA Clara Discovery 플랫폼에 배포할 수 있습니다.
UF 헬스는 NGC에서 이용 가능한 NVIDIA Megatron 프레임워크와 BioMegatron 사전교육 모델을 활용하여 오늘날 최대 임상 언어 모델인 게이터트론(GatorTron)을 개발하고 있습니다.
새로운 NGC 애플리케이션에는 DNA의 접근 가능한 영역을 식별하는 딥 러닝 모델인 AtacWorks와 희소하거나 노이즈가 많은 데이터에서 생체 분자의 구조를 추론하는 툴인 MELD가 포함됩니다.
분자에 대한 인사이트를 제공하는 메가트론 모델
NVIDIA와 아스트라제네카가 개발 중인 MegaMolBART 약물 발견 모델은 반응 예측, 분자 최적화, 드 노보(de novo) 분자 생성에 사용될 예정인데요. 이 모델은 아스트라제네카의 몰바트(MolBART) 트랜스포머 모델을 기반으로 하며, NVIDIA Megatron 프레임워크를 사용해 ZINC 화합물 데이터베이스에서 훈련되어, 슈퍼컴퓨팅 인프라에서 대규모 확장 훈련이 가능합니다.
연구원들은 대규모 ZINC 데이터베이스를 통해 화학 구조를 이해하는 모델을 사전 학습하여 수동으로 라벨링된 데이터의 필요성을 제거할 수 있는데요. 화학 물질이 서로 반응하는 방식을 예측하고 새로운 분자 구조를 생성하는 것을 포함하는 이상적인 다운스트림 작업입니다.
아스트라제네카의 분자 AI, 발견과학 및 연구개발(R&D) 담당 총괄인 올라 엥크비스트(Ola Engkvist)는 “AI 언어 모델이 문장에서 단어 간의 관계를 학습할 수 있는 것처럼, 우리의 목표는 분자 구조 데이터에 대해 훈련된 신경망이 실제 분자에서 원자 간의 관계를 학습하도록 하는 것입니다. 해당 NLP 모델이 개발되면, 오픈소스 형태로 제공되어 과학계가 약물 발견을 가속화하는데 사용할 수 있는 강력한 툴이 될 것입니다”라고 설명했습니다.
NVIDIA DGX SuperPOD를 사용하여 훈련되는 이 모델은 연구원들에게 데이터베이스에 존재하지 않지만 잠재적인 약물 후보가 될 수 있는 분자에 대한 아이디어를 제공합니다. 인-실리코(in-silico) 기술을 사용하면 약물 개발자가 비용과 시간이 많이 소요되는 실험실 테스트로 전환하기 전에 더 많은 화학공간을 검색하고 약리학적 특성을 최적화할 수 있습니다.
이번 협력을 위해 NVIDIA DGX A100 기반 캠브리지-1 및 셀린(Selene) 슈퍼컴퓨터를 사용해 방대한 규모의 워크로드를 대규모로 실행합니다. 캠브리지-1은 영국에서 가장 큰 슈퍼컴퓨터로 그린(Green)500 리스트에서 3위, 세계에서 가장 강력한 시스템 TOP 500에서 29위를 차지했는데요. 셀린(Selene) 슈퍼컴퓨터는 최근 그린500 리스트에서 1위를 차지했으며 세계에서 가장 강력한 시스템 TOP 500에서 5위를 차지했습니다.
언어 모델로 의료 혁신 가속화
200만여 환자와의 5,000만 건의 상호작용 기록을 기반으로 훈련된 UF 헬스의 게이터트론(GatorTron) 모델은 생명을 구하는 임상시험을 위해 환자를 식별하고, 생명을 위협하는 상태에 대해 의료팀에 알림을 보내고, 의료진의 임상 의사결정을 도울 수 있는 획기적인 기술입니다.
최근 NVIDIA DGX SuperPOD를 통해 교내 슈퍼컴퓨팅 시설을 강화한 플로리다대 학장 조셉 글로버(Joseph Glover)는 “게이터트론은 최첨단 모델 개발을 위해 10년 이상의 전자 의료기록을 활용합니다. 이러한 대규모의 툴을 사용하면 의료 연구진이 통찰력을 얻을 수 있을 뿐 아니라, 임상 기록에서 이전에는 파악할 수 없었던 동향을 확인할 수 있습니다”고 설명했죠.
또한 이 모델은 임상실험을 위한 환자 코호트를 신속하게 생성하고 특정 약물, 치료 또는 백신의 효과를 연구하는 것을 용이하게 하여 약물 발견을 가속화하는데요.
게이터트론은 펍메드(PubMed)의 코퍼스(corpus) 데이터를 사용하여 NVIDIA의 응용 딥 러닝 연구팀에서 개발한 가장 큰 생체의학 트랜스포머 모델인 BioMegatron을 통해 만들어졌습니다. BioMegatron은 생체의학 및 임상 텍스트에 대해 사전 훈련된 NVIDIA Clara Discovery모델의 집합인 Clara NLP를 통해 NGC에서 이용할 수 있죠.
UF 헬스의 대표 데이비드 넬슨(David Nelson)은 “게이터트론 프로젝트는 학계 및 업계 전문가가 최첨단 AI 기술과 세계적 수준의 컴퓨팅 리소스를 사용하여 협업한 결과로 탄생한 대표적인 예라고 할 수 있습니다. NVIDIA와의 파트너십은 UF 헬스가 AI 전문지식과 개발의 종착지로 부상하는데 매우 중요한 역할을 합니다”고 말했습니다.
약물 발견 시스템을 한층 강화
NVIDIA Clara Discovery 라이브러리와 NVIDIA DGX 시스템은 컴퓨팅 기반 약물발견 시스템에 도입되어 제약 연구에 힘을 보태고 있습니다.
NVIDIA와 화학 시뮬레이션 소프트웨어 분야의 선도기업인 슈뢰딩거(Schrödinger)는 전략적 협업을 발표했는데요. 과학 컴퓨팅 및 머신러닝에 대한 연구, NVIDIA 플랫폼에서 슈뢰딩거 애플리케이션 최적화, 수십억 개의 잠재적 약물 화합물 평가를 위한 NVIDIA DGX SuperPOD 기반 솔루션 공동 개발이 포함되었습니다.
생명공학 기업인 리커전(Recursion)은 NVIDIA DGX SuperPOD 참조 아키텍처를 기반으로 한 슈퍼컴퓨터 바이오하이브-1(BioHive-1)을 구축했습니다. 바이오하이브-1은 기존 클러스터로 일주일이 걸렸던 딥 러닝 프로젝트를 하루 내에 실행할 수 있도록 하죠.
NVIDIA Inception 액셀러레이터 프로그램의 파트너인 인실리코 메디슨(Insilico Medicine)은 최근 특발성 폐섬유화증을 치료할 새로운 전임상 후보물질을 발견했는데, 이는 임상시험 대상으로 지명된 새로운 질병을 위한 AI 설계 분자의 첫 사례입니다. 화합물은 NVIDIA Tensor Cores GPU에 의해 구동되는 시스템에서 생성되었으며, 목표 가설에서 선임상 후보 선택까지 18개월로 200만 달러(약 22억원) 미만이 소요됐습니다.
NVIDIA Inception 액셀러레이터 프로그램의 회원인 바이아사 애널리틱스(Vyasa Analytics)는 Clara NLP, NVIDIA DGX 시스템을 사용하여 생물의학 연구를 위해 사전 훈련된 모델에 액세스 할 수 있도록 하는데요. GPU로 가속화된 바이아사 레이어 데이터 패브릭(Vyasa Layar Data Fabric)은 여러 기관에 걸친 암 연구, 임상시험 분석, 생물의학 데이터 조화를 위한 솔루션을 강화하고 있습니다.
[추가자료]