아마존웹서비스(Amazon Web Services, AWS)를 통해 엔비디아 클라라 소프트웨어와 서비스(NVIDIA Clara software and services)를 쉽게 배포할 수 있게 되었습니다! 이를 통해 엔비디아는 선도적인 제약 바이오테크 기업들의 헬스케어 가속화를 지원하게 되었는데요.
AWS 리인벤트(re:Invent)에서 발표된 이 계획은 AWS 클라우드 리소스를 사용하는 의료 생명과학 분야의 개발자들에게 엔비디아 가속 제품을 AWS의 엔비디아 DGX 클라우드(DGX Cloud)에 통합할 수 있는 유연성을 제공합니다. 엔비디아 가속 제품에는 신약 개발을 위한 생성형 AI 플랫폼인 엔비디아 바이오네모(BioNeMo)가 포함되는데, 이는 현재 고성능 컴퓨팅을 위한 클러스터 관리 툴인 AWS 패러렐클러스터(ParallelCluster)와 아마존 세이지메이커(Amazon SageMaker) 머신러닝 서비스를 통해 제공되고 있습니다.
현재 전 세계 수천 개의 의료 생명과학 기업들이 AWS를 사용하고 있습니다. 이번 발표를 통해 기업들은 바이오네모에 액세스해 독점 데이터로 디지털 생물학 기초 모델을 구축하거나 맞춤화할 수 있습니다. 또한 AWS에서 엔비디아 GPU 가속 클라우드 서버를 통해 모델 훈련과 배포를 확장할 수 있습니다.
이미 일부 바이오테크 혁신 기업들은 생성형 AI 가속 신약 개발을 위해 바이오네모를 사용하는 AWS 이용 고객들입니다. 여기에는 알케맙 테라퓨틱스(Alchemab Therapeutics), 베이스캠프 리서치(Basecamp Research), 캐릭터 바이오사이언스(Character Biosciences), 에보자인(Evozyne), 엣셈블리(Etcembly), 랩지니어스(LabGenius) 등이 있습니다. 이번 협력을 통해 이들은 생체 분자 데이터로 훈련된 생성형 AI 모델 개발을 위한 클라우드 컴퓨팅 리소스를 빠르게 확장할 수 있는 다양한 방법을 확보하게 됩니다.
이번 발표는 AWS에서 제공되는 엔비디아의 기존 헬스케어 중심 제품을 확장하는데요. 여기에는 의료 이미징 워크플로우를 위한 엔비디아 모나이(MONAI), 가속 유전체학을 위한 엔비디아 파라브릭스(Parabricks) 등이 포함됩니다.
AWS에서 새롭게 이용 가능: 신약 개발 위해 생성형 AI를 발전시키는 엔비디아 네모
바이오네모는 사전 훈련된 LLM(대규모 언어 모델), 데이터 로더, 최적화된 훈련 방법을 갖춘 디지털 생물학 생성형 AI용 도메인 특화 프레임워크입니다. 이는 표적 식별, 단백질 구조 예측, 약물 후보 스크리닝을 가속화해 컴퓨터 기반 신약 개발을 발전시키는 데 기여하게 됩니다.
신약 개발 팀은 자체 데이터를 사용해 바이오네모로 모델을 구축하거나 최적화하고 이를 클라우드 기반 고성능 컴퓨팅 클러스터에서 실행할 수 있습니다.
이러한 모델 중 하나인 ESM-2는 단백질 구조 예측을 지원하는 강력한 LLM이다. ESM-2은 256개의 엔비디아 H100 텐서 코어 GPU(H100 Tensor Core GPUs)에서 선형에 가까운 확장을 달성하는데요. 연구진들은 512개의 H100 GPU로 확장해 논문에서 발표된 훈련 시간인 한 달이 아닌 며칠 만에 훈련을 완료할 수 있습니다.
또한 개발자들은 6억 5천만 개 또는 30억 개의 매개변수 체크포인트를 사용해 ESM-2를 대규모로 훈련할 수 있습니다. 바이오네모 훈련 프레임워크에서 지원되는 추가 AI 모델로는 저분자 생성 모델 메가몰BART(MegaMolBART)와 단백질 서열 생성 모델 ProtT5가 있습니다.
바이오네모의 사전 훈련된 모델과 최적화된 훈련 방법은 AWS 패러렐클러스터, 아마존 ECS와 같은 자체 관리형 서비스뿐 아니라 엔비디아 DGX 클라우드와 아마존 세이지메이커를 이용한 통합 관리 서비스에서도 사용할 수 있습니다. 이를 통해 연구개발팀은 더 많은 신약 후보를 탐색하고, 습식 실험실을 최적화하며, 유망한 임상 후보를 더 빠르게 찾을 수 있는 기초 모델을 구축할 수 있습니다.
AWS에서도 사용 가능: 의료 이미징과 유전체학을 위한 엔비디아 클라라
모나이는 엔비디아가 의료 이미징 워크플로우를 지원하기 위해 공동 설립하고 엔터프라이즈 지원을 제공하고 있는 프로젝트입니다. 현재까지 180만 회 이상 다운로드 됐으며, AWS에 배포 가능합니다. 개발자는 AWS 클라우드 리소스에 이미 저장된 독점적인 의료 데이터세트를 활용해 의료 이미징용 AI 모델에 빠르게 주석을 달거나 구축할 수 있습니다.
엔비디아 GPU 기반 아마존 EC2 인스턴스에서 훈련된 이러한 모델은 의료 이미징 세분화, 분류, 등록, 감지 작업을 위한 대화형 주석과 미세 조정에 사용할 수 있습니다. 아울러 개발자는 모나이에서 제공되는 MRI 이미지 합성 모델을 활용해 훈련 데이터 세트를 보강할 수 있습니다.
파라브릭스는 유전체학 파이프라인 가속화를 위해 CPU 전용 시스템에서는 하루가 걸리던 인간 게놈에 대한 변이체 호출을 약 15분 만에 가능하게 합니다. AWS에서 개발자는 여러 GPU 노드에 걸쳐 대량의 게놈 데이터를 처리하도록 빠르게 확장할 수 있습니다.
12개 이상의 파라브릭스 워크플로우가 AWS 헬스오믹스(HealthOmics)에서 레디투런(Ready2Run) 워크플로우로 제공됩니다. 이를 통해 고객들은 사전 구축된 파이프라인을 쉽게 실행할 수 있습니다.
신약 개발, 유전체학, 의료 이미징을 위한 AI 워크플로우를 가속화하기 위해 AWS에서 엔비디아 클라라를 시작할 수 있습니다.
여기에서 엔비디아 헬스케어 관련 소식을 더 알아볼 수 있습니다.