프롬프트 기반 코드 생성으로 소프트웨어 개발에 혁신을 일으킨 생성형 AI가 이제 단백질 설계에 도전합니다.
단백질의 서열, 구조 및 기능을 동시에 추론하여 단백질 발견 엔지니어에게 프로그래밍 가능한 플랫폼을 제공하는 3세대 ESM 모델인 ESM3 모델을 출시했다고 EvolutionaryScale이 오늘 발표했습니다.
Meta FAIR(Fundamental AI Research) 부서에서 탄생한 이 스타트업은 최근 Lux Capital, Nat Friedman, Daniel Gross가 주도하는 투자 유치와 함께 NVIDIA 및 Amazon의 투자를 유치했습니다.
프로그래머블 생물학의 최전선에 있는 EvolutionaryScale은 암세포를 표적으로 삼고, 유해한 플라스틱의 대안을 찾고, 환경 문제를 완화하는 데 도움이 될 수 있는 단백질을 엔지니어링하는 연구자들을 지원할 수 있습니다.
EvolutionaryScale은 생물학적 파운데이션 모델 사상 가장 많은 컴퓨팅을 위해 NVIDIA H100 텐서 코어 GPU를 사용한 ESM3의 스케일아웃 모델 개발을 통해 프로그래머블 생물학의 영역을 개척하고 있습니다. 980억 개의 파라미터를 가진 ESM3 모델은 이전 모델인 ESM2보다 약 25배 더 많은 플롭과 60배 더 많은 데이터를 사용합니다.
20억 개 이상의 단백질 서열 데이터베이스를 개발하여 AI 모델을 학습시킨 이 회사는 신약 개발, 질병 퇴치, 말 그대로 인간이 종으로서 어떻게 대규모로 진화해 왔는지에 대한 단서를 제공할 수 있는 기술을 신약 개발 연구자들에게 제공합니다.
ESM3를 통한 인실리코 생물학 연구 가속화
훈련 데이터의 비약적인 발전을 통해 EvolutionaryScale은 ESM3로 단백질 발견을 가속화하는 것을 목표로 합니다.
이 모델은 유기체와 생물군계에서 샘플링한 약 28억 개의 단백질 서열로 훈련되어 과학자들이 더욱 높은 수준의 정확도로 새로운 단백질을 식별하고 검증할 수 있도록 합니다.
ESM3는 이전 버전에 비해 중요한 업데이트를 제공합니다. 이 모델은 기본적으로 생성형 모델이며, 구조와 기능 주석을 출력으로만 제공하는 것이 아니라 입력으로 제공할 수 있는 ‘올 투 올’ 모델입니다.
이 모델이 공개되면 과학자들은 이 기본 모델을 미세 조정하여 자신만의 독점 데이터를 기반으로 목적에 맞는 모델을 구축할 수 있습니다. 방대한 양의 데이터에 대한 ESM3의 대규모 생성형 훈련으로 단백질 엔지니어링 역량이 향상됨에 따라 인실리코 생물학 연구를 위한 시간 여행 기계가 탄생했습니다.
NVIDIA BioNeMo를 통한 차세대 혁신 추진
ESM3는 생물학자 및 단백질 설계자에게 생성형 AI를 제공하여 단백질에 대한 엔지니어링 및 이해를 향상시킵니다. 간단한 프롬프트만으로 제공된 스캐폴드로 새로운 단백질을 생성하고, 피드백을 기반으로 단백질 설계를 자체 개선하며, 사용자가 지정한 기능에 따라 단백질을 설계할 수 있습니다. 이러한 기능을 조합하여 사용하면 마치 인간이 알고 있는 모든 단백질 서열의 복잡한 3차원적 의미를 암기하고 언어를 유창하게 학습한 연구자에게 메시지를 보내는 것처럼 연쇄적인 단백질 설계를 제공하여 사용자가 반복할 수 있게 해줍니다.
“내부 테스트에서 우리는 다양하고 복잡한 프롬프트에 창의적으로 대응하는 ESM3의 능력에 깊은 인상을 받았습니다.”라고 EvolutionaryScale의 공동 창립자이자 엔지니어링 부사장인 Tom Sercu는 말합니다. “매우 어려운 단백질 설계 문제를 해결하여 새로운 녹색 형광 단백질을 만들 수 있었습니다. ESM3가 과학자들의 연구 속도를 높이고 새로운 가능성을 열어줄 것으로 기대하며, 향후 생명과학 연구에 어떤 기여를 할 수 있을지 기대가 큽니다.”
EvolutionaryScale은 오늘 클로즈 베타용 API를 공개할 예정이며, 비상업적 용도의 소규모 오픈 버전 ESM3에 대한 코드와 가중치를 사용할 수 있습니다. 이 버전은 신약 개발을 위한 생성형 AI 플랫폼인 NVIDIA BioNeMo에 곧 출시될 예정입니다. 전체 ESM3 모델 제품군은 곧 일부 고객에게 NVIDIA와의 협업을 통해 런타임이 최적화된 NVIDIA NIM 마이크로서비스로 제공될 예정이며, ai.nvidia.com에서 테스트용 NVIDIA AI 엔터프라이즈 소프트웨어 라이선스로 지원됩니다.
이러한 모델을 훈련하는 데 필요한 컴퓨팅 성능은 기하급수적으로 증가하고 있습니다. ESM3는 NVIDIA H100 GPU와 NVIDIA Quantum-2 InfiniBand 네트워킹을 사용하는 안드로메다 클러스터를 사용하여 훈련되었습니다.
ESM3 모델은 Amazon Bedrock, Amazon Sagemaker, AWS HealthOMICs 및 NVIDIA BioNeMo를 포함한 일부 파트너 플랫폼에서 사용할 수 있습니다.
소프트웨어 제품 정보에 관한 공지를 참조하세요.