생물학 분야로 대형 언어 모델 확대하는 NVIDIA

DNA와 단백질 등 생명의 빌딩 블록들에 대한 새로운 인사이트의 모색을 가속할 NVIDIA BioNeMo 프레임워크가 NVIDIA GTC에서 공개됐습니다.

NVIDIA BioNeMo는 슈퍼컴퓨팅 규모를 가진 대형 생체분자 언어 모델의 훈련과 배포를 위한 프레임워크로, 질병의 이해와 치료의 개선에 기여합니다. 대형 언어 모델(LLM) 프레임워크는 화학과 단백질, DNA와 RNA의 데이터 형식을 지원할 예정입니다.

NVIDIA BioNeMo는 신약 개발용 프레임워크와 애플리케이션, AI 모델의 컬렉션인 NVIDIA Clara Discovery의 일원입니다.

AI는 LLM으로 인간의 언어를 이해하는 법을 배웁니다. 그와 마찬가지로 생물학과 화학의 언어도 배울 수 있죠. NVIDIA BioNeMo는 대형 신경망이 생체분자 데이터를 보다 쉽게 학습하도록 만들어 생물학적 시퀀스에서 새로운 패턴과 인사이트를 도출하게 돕습니다. 이렇게 얻은 인사이트를 연구자들이 생물학적 특성이나 기능, 더 나아가 인간의 건강 상태와 연결하죠.

NVIDIA BioNeMo가 제공하는 프레임워크를 통해 과학자들은 더 큰 데이터세트로 대형 언어 모델을 훈련해 신경망의 성능을 향상시킵니다. 이 프레임워크는 GPU 최적화 소프트웨어를 위한 허브인 NVIDIA NGC의 조기 체험 프로그램으로 만나볼 수 있습니다.

이 언어 모델 프레임워크에 더해 NVIDIA BioNeMo는 날로 증가하는 사전 훈련 AI 모델을 지원할 클라우드 API 서비스도 제공합니다.

더 큰 모델, 더 나은 예측 지원하는 BioNeMo 프레임워크

오늘날 생물학 데이터용 자연어 처리 모델을 사용하는 과학자들이 주로 훈련하는 신경망은 상대적으로 규모가 작고 맞춤형 전처리를 요하는데요. BioNeMo를 도입하면 수십억 개의 파라미터를 가진 LLM으로 모델을 확장해 분자 구조와 단백질 용해성 등에 대한 정보를 캡처할 수 있습니다.

BioNeMo는 대규모 자기지도(self-supervised) 언어 모델의 GPU 가속 훈련을 위한 NVIDIA NeMo Megatron 프레임워크의 확장 기능입니다. 도메인별로 특화돼 만들어지며, 화학적 구조를 표기하는 SMILES 기법이나 아미노산과 핵산의 시퀀스 문자열인 FASTA로 표현된 분자 데이터를 지원하도록 설계됩니다.

오픈폴드 컨소시엄(OpenFold Consortium)의 창립 멤버이자 컬럼비아대학교 시스템생물학과 조교수인 모하메드 알쿠라이시(Mohammed AlQuraishi)는 “BioNeMo 프레임워크 덕분에 헬스케어와 생명과학 산업의 연구자들이 빠르게 증가하는 생물학과 화학 데이터세트를 제대로 활용할 수 있습니다”고 설명합니다. “이를 통해 특정 질병의 분자적 특징을 정확히 겨냥한 치료법을 보다 쉽게 발견하고 고안할 수 있습니다.”

화학과 생물학용 LLM 제공하는 BioNeMo 서비스

생물학과 화학 분야의 디지털 애플리케이션용 LLM을 신속히 시작하기 원하는 개발자를 위해 NVIDIA BioNeMo LLM 서비스에는 사전 훈련된 언어 모델 4종이 포함됩니다. 이 모델들은 추론에 최적화돼 있으며, NVIDIA DGX Foundry에서 구동되는 클라우드 API의 조기 체험을 통해 액세스할 수 있습니다.

ESM-1: 메타 AI 랩스(Meta AI Labs)가 내놓은 이 단백질 LLM은 아미노산 시퀀스를 처리해 다양한 단백질의 특성과 기능 예측에 활용할 표현형을 생성합니다. 또한 과학자들의 단백질 구조 이해력을 강화합니다.
OpenFold: 최첨단의 단백질 모델링 툴을 만드는 민관 컨소시엄 OpenFold는 BioNeMo 서비스를 통해 자체 오픈 소스 AI 파이프라인을 제공할 예정입니다.
MegaMolBART: 14억 개의 분자로 훈련된 이 생성적 화학 모델은 반응 예측과 분자 최적화, 새로운 분자 생성에 사용할 수 있습니다.
ProtT5: 이 모델은 NVIDIA와 뮌헨공과대학의 로스트랩(RostLab) 등이 협업을 통해 개발한 것으로, ESM-1b와 같은 단백질 LLM의 기능을 시퀀스 생성으로 확장합니다.

앞으로 BioNeMo LLM 서비스를 활용하는 연구자들은 LLM 모델의 커스터마이징을 통해 자체 애플리케이션의 정확도를 단 몇 시간만에 개선할 수 있게 될 것입니다. 겨우 수백 개의 사례로 구성된 데이터세트를 활용하는 P 튜닝(p-tuning) 등의 새로운 훈련 기법과 미세 조정을 병용하면 충분히 가능합니다.

NVIDIA BioNeMo 도입하는 스타트업과 연구자, 제약회사

신약 개발 연구의 지원을 위해 NVIDIA BioNeMo를 도입하는 생명공학과 제약 분야의 전문가들이 늘고 있습니다.

아스트라제네카(AstraZeneca)와 NVIDIA는 Cambridge-1 슈퍼컴퓨터를 활용해 BioNeMo LLM 서비스에 포함된 MegaMolBART 모델을 개발했습니다. 아스트라제네카는 또한 BioNeMo 프레임워크로 저분자와 단백질, DNA 데이터세트에서 세계 최대의 언어 모델을 훈련할 계획입니다.
MIT와 하버드 브로드 연구소(Broad Institute of MIT and Harvard)의 연구자들은 NVIDIA와 손잡고 BioNeMo 프레임워크를 사용해, 차세대 DNA 언어 모델을 개발하고 있습니다. 이 모델들은 브로드 연구소와 마이크로소프트(Microsoft), 베릴리(Verily)가 공동 개발한 클라우드 플랫폼인 테라(Terra)에 통합돼 생물의학 분야의 연구자들이 대량의 데이터를 안전하게 공유, 평가, 분석할 수 있게 지원합니다. 이 AI 모델들은 또한 BioNeMo 서비스 컬렉션에도 추가될 예정입니다.
OpenFold 컨소시엄은 BioNeMo 프레임워크를 사용해 아미노산 시퀀스의 분자 구조를 실험적일 정도의 정확도로 예측할 수 있는 AI 모델의 개발 작업을 개선합니다.
펩톤(Peptone)은 본질적으로 무질서한 단백질, 즉 안정적인 3D 구조가 없는 단백질의 모델링에 집중하고 있습니다. NVIDIA와 협업 하에 BioNeMo의 토대인 NeMo 프레임워크를 사용해 ESM 모델의 여러 버전을 개발하는 중입니다. 이 프로젝트는 NVIDIA의 Cambridge-1 슈퍼컴퓨터에서 실행될 예정으로 펩톤의 신약 개발 작업을 가속할 전망입니다.
미국 시카고에 본사를 둔 생명공학 기업인 에보자인(Evozyne)은 엔지니어링과 딥 러닝 테크놀로지를 결합해 치료법과 지속가능성 측면의 오랜 과제를 해결할 새로운 단백질을 설계합니다.

에보자인의 공동 창립자이자 컴퓨팅 책임자인 앤드루 퍼거슨(Andrew Ferguson)은 “BioNeMo 프레임워크 덕분에 설계와 구축, 검증으로 이어지는 개발 사이클 내에서 데이터 위주의 단백질 설계에 LLM을 효과적으로 활용할 수 있습니다”고 설명합니다. “이 테크놀로지는 새로운 기능성 단백질을 설계하고 이를 인간의 건강과 지속가능성에 적용하는 작업에 중대한 영향을 미칠 것입니다.”

NVIDIA Inception 프로그램의 회원사이기도 한 생명공학 스타트업 펩톤에서 머신 러닝을 담당하고 있는 이스트반 레들(Istvan Redl)은 이렇게 말합니다. “단백질 분야의 대형 언어 모델 도입이 그 어느 때보다 활발한 상황에서 LLM의 효율적 훈련과 모델 아키텍처의 신속한 조정은 무척 중요한 문제입니다. 우리는 엔지니어링의 핵심인 확장성과 신속한 실험을 BioNeMo 프레임워크가 제공할 수 있다고 굳게 믿습니다.”

NVIDIA BioNeMo LLM 서비스 또는 BioNeMo 프레임워크의 얼리 엑세스을 신청하세요. BioNeMo의 메가몰BART 화학 모델을 핸즈온으로 경험하려면, NVIDIA LaunchPad에서 LLM 훈련과 배포 관련 무료 랩을 요청하세요.

9월 22일 목요일까지 온라인으로 진행되는 GTC에서 AI와 헬스케어의 최신 동향을 확인하세요. 등록은 무료입니다.

NVIDIA 설립자 겸 CEO 젠슨 황(Jensen Huang)의 GTC 키노트를 시청하세요.