스타트업 에보자인(Evozyne)은 NVIDIA의 사전 훈련된 AI 모델을 사용하여 의료, 청정에너지 분야에서 상당한 잠재력을 지닌 두 가지 단백질을 만들었습니다.
지난 주에 발표된 공동 논문은 그 과정과 생산된 생물학적 빌딩 블록을 설명합니다. 첫 번째 단백질은 선천적 질병을 치료를 목표로 하며, 두 번째는 지구 온난화를 줄이기 위해 이산화탄소를 소비하도록 설계됐습니다.
초기 결과는 약물 발견 등을 가속화하는 새로운 방법을 보여줍니다.
에보자인의 공동 창립자이자 이 논문의 공동 저자인 앤드류 퍼거슨(Andrew Ferguson)은 “첫 번째 라운드부터 AI 모델이 자연 발생 단백질만큼 우수한 합성 단백질을 생산했다는 것은 정말 고무적이었습니다. 이는 모델이 자연의 디자인 규칙을 올바르게 학습했다는 것을 의미합니다”고 말했습니다.
혁신적 AI 모델
에보자인은 의료용 AI 모델 생성을 위한 소프트웨어 프레임워크이자 서비스 NVIDIA BioNeMo의 일부인 트랜스포머 모델의 NVIDIA ProtT5 구현을 활용했습니다.
화학과 머신 러닝의 교차점에서 작업하는 분자 엔지니어인 퍼거슨은 “BioNeMo는 모델 훈련을 지원하고 매우 저렴한 비용으로 모델 작업을 실행하는 데 필요한 모든 것을 제공했습니다. 단 몇 초 만에 수백만 개의 시퀀스를 생성할 수 있었습니다”라고 말했죠.
이 모델은 ProT-VAE라고 하는 에보자인 프로세스의 핵심인데요. BioNeMo와 필터 역할을 하는 변형 자동 인코더를 결합한 워크플로우입니다.
그는 “단백질을 설계하기 위해 변형 자동 인코더와 결합된 대규모 언어 모델(LLM)을 사용하는 것은 불과 몇 년 전만 해도 누구도 생각하지 못했던 일입니다”라고 말했습니다.
자연의 방식을 학습하는 AI 모델
학생이 책을 읽듯이, NVIDIA의 트랜스포머 모델은 수백만 개의 단백질에서 아미노산 서열을 읽습니다. 신경망이 텍스트를 이해하는 데 사용하는 것과 동일한 기술을 사용하여, 모델은 자연이 이러한 강력한 생물학 구성 요소를 조립하는 방법을 학습했습니다.
그런 다음 이 모델은 에보자인이 다루고자 하는 기능에 적합한 새로운 단백질을 조립하는 방법을 예측했습니다.
그는 “이 기술은 우리가 10년 전에는 상상만 했던 일을 실현할 수 있게 해줍니다”라고 말했습니다.
가능성의 바다
머신 러닝은 가능한 단백질 서열의 천문학적 수를 탐색한 다음 가장 유용한 서열을 효율적으로 식별할 수 있도록 돕습니다.
유도진화(directed evolution)라고 불리는 전통적인 단백질 공학법은 느리고 복불복인 방식을 사용합니다. 일반적으로 한 번에 몇 개의 아미노산만 순서대로 변경할 수 있죠.
대조적으로, 에보자인의 방식은 단일 라운드에서 단백질의 절반 이상의 아미노산을 변경할 수 있습니다. 이는 수백 개의 돌연변이를 만드는 것에 해당합니다.
그는 “우리는 새롭고 유용한 기능을 가진, 이전에 본 적 없는 단백질을 탐색할 수 있는 엄청난 도약을 하고 있습니다”라고 말했습니다.
에보자인은 새로운 프로세스를 사용하여 질병과 기후 변화에 대처하는 데 도움이 되는 다양한 단백질을 생성할 계획입니다.
훈련 시간 단축, 모델 확장
그는 “이 작업에서 NVIDIA는 놀라운 파트너였습니다”라고 말했습니다.
에보자인의 데이터 사이언티스트인 조슈아 몰러(Joshua Moller)는 “NVIDIA는 훈련 속도를 높이기 위해 작업을 여러 GPU로 확장했습니다. 우리는 매분 마다 전체 데이터 세트를 검토하고 있었습니다”라고 말했죠.
이에 따라 대규모 AI 모델을 훈련하는 시간이 몇 달에서 일주일로 단축됐습니다. 퍼거슨은 “이를 통해 수십억 개의 훈련 가능한 파라미터가 있는 모델을 훈련할 수 있었습니다. 다른 방법으로는 불가능했을 것입니다”라고 말했습니다.
무궁무진한 가능성
AI로 가속화된 단백질 공학의 지평은 넓습니다.
그는 최근 확산 모델의 부상을 언급하며 “이 분야는 믿을 수 없을 정도로 빠르게 움직이고 있으며, 다음에 무엇이 올지 정말 기대됩니다”라고 말했습니다.
“5년 후에 우리가 어디에 있을지 누가 알겠습니까?”
NVIDIA BioNeMo에 대한 얼리 액세스를 신청하고 애플리케이션을 가속화할 수 있는 방법을 확인하세요.