제약 업계에서 가장 큰 시스템으로 알려진 리커전(Recursion)의 미국 솔트레이크시티 본사에 있는 바이오하이브-2(BioHive-2)가 세계에서 가장 빠른 슈퍼컴퓨터 목록 ‘톱500(TOP500)’에서 이전보다 100계단 이상 상승한 35위에 올랐습니다.
이러한 순위 상승은 NVIDIA 기술을 통해 신약 연구 개발을 가속화하고자 노력한 리커전의 최근 성과를 보여주죠.
머신 러닝을 10년 이상 의료 분야에 적용해 온 리커전의 최고 기술 책임자(CTO)인 벤 마비(Ben Mabey)는 “거대 언어 모델(LLM)과 마찬가지로 생물학 영역의 AI 모델은 더 많은 데이터와 컴퓨팅 연산 마력(compute horsepower)으로 훈련을 확장해 성능을 크게 향상시킬 수 있으며, 이는 궁극적으로 환자의 삶에 더 큰 영향을 미칩니다”고 설명했습니다.
바이오하이브-2는 NVIDIA Quantum-2 InfiniBand 네트워크에 연결된 504개의 NVIDIA H100 Tensor 코어 GPU를 탑재해 2 엑사플롭스(exaflops)의 AI 성능을 제공합니다. 그 결과 NVIDIA DGX SuperPOD는 리커전의 1세대 시스템인 바이오하이브-1보다 무려 약 5배 더 빠른 속도를 자랑하죠.
복잡성으로 인한 성능 향상
마비는 “생물학이 놀랍도록 복잡하기 때문에” 바로 이러한 성능이 빠른 발전의 핵심이라고 말했습니다.
과학자들이 하나의 신약 후보 물질을 찾기 위해 수백만 건의 웻랩(wet-lab) 실험을 수행하는 데는 수년이 걸릴 수 있는데요.
이는 매우 중요한 일입니다. 리커전의 과학자들은 일주일에 200만 건 이상의 실험을 수행합니다. 그러나 앞으로는 바이오하이브-2의 AI 모델을 통해, 가장 유망한 생물학 분야로 플랫폼을 연결해 실험을 수행하게 할 것입니다.
그는 “오늘날의 AI를 활용하면 웻랩 실험 작업의 40%로 80%의 가치를 얻을 수 있으며, 이 비율은 앞으로 더 높아질 것”이라고 덧붙였습니다.
생물 정보 데이터를 통한 헬스케어 AI 발전
리커전은 바이엘(Bayer) AG, 로슈(Roche), 제넨텍(Genentech)과 같은 바이오 제약 회사와 협력하고 있습니다. 또한 오랜 시간 50 페타바이트(petabyte) 이상의 생물학적, 화학적, 환자 정보를 아우르는 데이터베이스를 축적해 신약 개발을 가속화하는 강력한 AI 모델을 구축하는 데 도움을 주고 있죠.
마비는 “이 데이터 세트는 지구상에서 가장 방대한 생물 정보 데이터 세트 중 하나로, 의도적으로 생물학과 화학을 아우르는 AI 학습을 염두에 두고 구축됐습니다”고 설명했습니다. 그는 이러한 데이터 세트 구축에 전념하기 위해 7년여 전 이 회사에 합류했죠.
AI 열풍의 시작
리커전은 바이오하이브-1에서 해당 데이터를 처리해 페놈(Phenom)이라는 파운데이션 모델 제품군을 개발했습니다. 이 모델은 일련의 미세 세포 이미지를 기본적 생물학을 이해하기 위한 의미 있는 표현으로 변환합니다.
해당 제품군에 포함된 페놈-베타(Phenom-Beta)는 신약 개발을 위한 생성형 AI 플랫폼 NVIDIA BioNeMo에서 지원하는 최초의 타사 모델로, 클라우드 API로 제공되죠.
수개월에 걸친 연구와 반복 연산을 통해 바이오하이브-1은 35억 개 이상의 세포 이미지를 통해 페놈-1을 훈련시켰습니다. 리커전의 확장된 시스템을 사용하면 더 짧은 시간에 더 큰 데이터 세트로 훨씬 더 강력한 모델을 훈련할 수 있습니다.
또한 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI)가 호스팅하는 NVIDIA DGX Cloud로 추가 슈퍼컴퓨팅 리소스를 제공해 작업에 추진력을 더했습니다.
페놈-1 모델은 다양한 질병과 암을 치료하기 위한 분자를 찾고 최적화하는 등의 여러 방법으로 리커전과 그 파트너를 지원합니다. 앞선 모델들은 리커전이 코로나19(COVID-19)에 대한 신약 후보 물질을 10번 중 9번 예측하는 데 큰 도움이 됐습니다.
리커전은 지난 7월 NVIDIA와의 협력을 발표했는데요. 그로부터 30일도 채 지나지 않아 바이오하이브-1과 DGX Cloud의 조합은 방대한 화학 물질 라이브러리를 탐색하고 분석해 약 360억 개의 화합물에 대한 단백질 표적을 예측했습니다.
1월에는 과학자들이 자사 도구에 더 쉽게 접근할 수 있도록 자연어 인터페이스를 갖춘 AI 워크플로우 엔진인 로우(LOWE)를 시연했죠. 또한 4월에는 의료 분야에서 관심 있는 주요 분자의 특성을 예측하는 새로운 방법을 제공하기 위해 구축한 10억 개의 매개변수 AI 모델을 설명했습니다.
리커전은 NVIDIA 소프트웨어를 사용해 시스템을 최적화합니다.
마비는 “우리는 CUDA와 NVIDIA AI Enterprise를 좋아하고, NVIDIA NIM이 회사 내부 구성원이나 외부 협력사 구성원에게 모델을 더 쉽게 배포하는 데 도움이 될지 알아보고 있습니다”고 말했습니다.
헬스케어의 미래를 위한 공통된 비전
이러한 노력은 NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)이 리커전의 회장과 진행한 노변담화에서 생물학 시뮬레이션을 향한 광범위한 비전의 일부라고 설명한 바 있습니다.
젠슨 황은 “이제 구조가 있는 거의 모든 언어를 인식하고 학습할 수 있으며, 구조가 있는 모든 것으로 번역할 수 있습니다. 이것이 바로 생성형 AI 혁명”이라고 밝혔죠.
마비는 “우리도 비슷한 견해를 가지고 있습니다. 우리는 컴퓨터가 칩 설계를 가속화한 것처럼 AI가 약물 설계를 가속화할 수 있는 매우 흥미로운 시기의 초기 단계에 있습니다. 생물학은 훨씬 더 복잡하기 때문에 몇 년이 걸리겠지만, 돌이켜보면 사람들은 바로 지금 그리고 여기가 의료 분야의 진정한 전환점이었다는 것을 알게 될 것”이라고 말했습니다.
헬스케어와 생명과학을 위한 NVIDIA의 AI 플랫폼에 대해 알아보세요. 그리고 NVIDIA 헬스케어 뉴스를 구독하세요.
맨 위의 사진 설명: 리커전 팀원 몇 명과 함께한 바이오하이브-2. 왼쪽부터 페이지 데스페인(Paige Despain), 존 더킨(John Durkin), 조슈아 프라이어(Joshua Fryer), 제스 딘(Jesse Dean), 가네시 자간나탄(Ganesh Jagannathan), 크리스 깁슨(Chris Gibson), 린제이 엘린저(Lindsay Ellinger), 마이클 세코라(Michael Secora), 알렉스 티모페예브(Alex Timofeyev), 벤 마비.