이제 전 세계 과학자들은 모든 생명체의 유전 암호를 이해하는 강력한 최신 파운데이션 모델인 Evo 2에 액세스할 수 있습니다. 공개된 이 모델은 공개적으로 사용 가능한 최대 규모의 게놈 데이터용 AI 모델로, 비영리 생의학 연구 기관인 Arc 연구소와 스탠포드 대학이 주도한 협업으로 NVIDIA DGX 클라우드 플랫폼에 구축되었습니다.
Evo 2는 전 세계 개발자가 쉽고 안전한 AI 배포를 위한 NVIDIA NIM 마이크로서비스를 포함하여 NVIDIA BioNeMo 플랫폼에서 사용할 수 있습니다.
DNA와 RNA의 구성 요소인 약 9조 개의 뉴클레오타이드로 구성된 방대한 데이터 세트를 학습한 Evo 2는 유전자 서열을 기반으로 단백질의 형태와 기능 예측, 의료 및 산업 응용을 위한 새로운 분자 식별, 유전자 변이가 기능에 미치는 영향 평가 등 생체 분자 연구 애플리케이션에 적용될 수 있습니다.
Arc 연구소의 공동 설립자이자 핵심 연구원이자 버클리 캘리포니아 대학교의 생명공학 조교수인 Patrick Hsu는 “Evo 2는 생성 유전체학의 중요한 이정표가 될 것입니다.”라고 말합니다. “이러한 생명의 기본 구성 요소에 대한 이해를 발전시킴으로써 현재로서는 상상할 수 없는 의료 및 환경 과학 분야의 솔루션을 추구할 수 있습니다.”
Evo 2용 NVIDIA NIM 마이크로서비스를 통해 사용자는 모델 파라미터를 조정하는 설정을 통해 다양한 생물학적 서열을 생성할 수 있습니다. 자체 데이터 세트에서 Evo 2를 fine-tuning하는 데 관심이 있는 개발자는 생체 분자 연구를 위한 가속 컴퓨팅 도구 모음인 오픈 소스 NVIDIA BioNeMo 프레임워크를 통해 모델을 다운로드할 수 있습니다.
디터 슈바르츠 재단 스탠포드 데이터 사이언스 교수 펠로우이자 Arc 연구소의 혁신 연구원인 스탠포드 대학교 화학공학과 조교수 Brian Hie는 “새로운 생물학을 설계하는 것은 전통적으로 힘들고 예측할 수 없는 장인의 손길이 필요한 과정이었다”고 말했습니다. “Evo 2를 통해 연구자들이 복잡한 시스템의 생물학적 설계에 더 쉽게 접근할 수 있게 되어 이전보다 훨씬 짧은 시간 내에 새롭고 유익한 발전을 이룰 수 있게 되었습니다.”
복잡한 과학 연구 지원
2021년 6억 5,000만 달러의 설립 기부금으로 설립된 Arc 연구소는 과학자들에게 다년간의 연구비를 지원함으로써 과학자들이 보조금 대신 혁신적인 연구에 집중할 수 있도록 하여 장기적인 과학적 과제를 해결할 수 있도록 지원합니다.
핵심 연구자들은 스탠포드 대학교, 버클리 캘리포니아 대학교, 샌프란시스코 캘리포니아 대학교 등 연구소의 파트너 대학 중 한 곳의 교수 임용과 동시에 8년 동안 갱신 가능한 기간 동안 최첨단 연구실 공간과 연구비를 지원받습니다.
이 독특한 연구 환경과 NVIDIA의 가속 컴퓨팅 전문 지식 및 리소스를 결합함으로써 Arc 연구소의 연구원들은 더 복잡한 프로젝트를 추진하고, 더 큰 데이터 세트를 분석하며, 더 빠르게 결과를 얻을 수 있습니다. 이 연구소의 과학자들은 암, 면역 기능 장애 및 신경 퇴화를 포함한 질병 분야에 집중하고 있습니다.
NVIDIA는 과학자들이 AWS의 NVIDIA DGX Cloud를 통해 2,000개의 NVIDIA H100 GPU에 액세스할 수 있도록 지원함으로써 Evo 2 프로젝트를 가속화했습니다. DGX 클라우드는 대규모 컴퓨팅 클러스터에 단기적으로 액세스하여 연구자들이 혁신을 이룰 수 있는 유연성을 제공합니다. 완전 관리형 AI 플랫폼에는 NVIDIA NIM 마이크로서비스 형태의 최적화된 소프트웨어와 NVIDIA BioNeMo Blueprint를 갖춘 NVIDIA BioNeMo가 포함되어 있습니다.
생체 분자 과학 전반의 애플리케이션
Evo 2는 DNA, RNA 및 단백질에 대한 인사이트를 제공할 수 있습니다. 식물, 동물, 박테리아를 포함한 다양한 생명체에 대해 훈련된 이 모델은 의료, 농업 생명공학, 재료 과학과 같은 과학 분야에 적용될 수 있습니다.
Evo 2는 최대 100만 개의 토큰에 달하는 긴 유전 정보 서열을 처리할 수 있는 새로운 모델 아키텍처를 사용합니다. 이렇게 게놈에 대한 시야가 넓어지면 과학자들은 유기체 유전 암호의 먼 부분과 세포 기능, 유전자 발현 및 질병의 메커니즘 사이의 연관성에 대한 이해를 높일 수 있습니다.
“단일 인간 유전자에는 수천 개의 뉴클레오타이드가 포함되어 있으므로, AI 모델이 이러한 복잡한 생물학적 시스템의 작동 방식을 분석하려면 유전자 서열의 가능한 최대 부분을 한 번에 처리해야 합니다.”라고 Hsu는 말합니다.
의료 및 신약 개발 분야에서 Evo 2는 연구자들이 특정 질병과 연관된 유전자 변이를 이해하고 해당 영역을 정확하게 표적으로 삼아 질병을 치료할 수 있는 새로운 분자를 설계하는 데 도움을 줄 수 있습니다. 예를 들어, 스탠포드와 Arc 연구소의 연구원들은 유방암과 관련된 유전자 BRCA1을 사용한 테스트에서 Evo 2가 이전에 인식하지 못한 돌연변이가 유전자 기능에 영향을 미칠지 여부를 90%의 정확도로 예측할 수 있음을 발견했습니다.
농업 분야에서 이 모델은 식물 생물학에 대한 통찰력을 제공하고 과학자들이 기후에 더 강하거나 영양분이 더 풍부한 작물 품종을 개발하도록 지원함으로써 전 세계 식량 부족 문제를 해결하는 데 도움을 줄 수 있습니다. 또한 다른 과학 분야에서도 Evo 2는 바이오 연료를 설계하거나 석유나 플라스틱을 분해하는 단백질을 엔지니어링하는 데 적용될 수 있습니다.
“Evo 2와 같은 모델을 배포하는 것은 강력한 새 망원경을 우주의 가장 먼 곳으로 보내는 것과 같습니다.”라고 Arc의 최고 기술 책임자인 Dave Burke는 말합니다. “우리는 탐사를 위한 엄청난 기회가 있다는 것을 알고 있지만, 아직 무엇을 발견할 수 있을지는 모릅니다.”
NVIDIA 기술 블로그와 Arc의 기술 보고서에서 Evo 2에 대한 자세한 내용을 읽어보세요.
소프트웨어 제품 정보는 공지를 참조하세요.