지난 4월에 열린 GPU 기술 컨퍼런스 GTC 2021에서 다프니 콜러(Daphne Koller)와 킴벌리 파월(Kimberly Powell)은 “의료 전문가들이 모든 현상을 이해할 수 있게 이끄는 디지털 데이터의 폭발적인 증가와 인공지능(AI) 컴퓨팅의 부상이라는 두 가지 커다란 혁명이 생명과학 분야에 접목되고 있습니다”고 말했습니다.
NVIDIA 헬스케어 부사장 킴벌리 파월은 의약 발견, 의료 이미징, 유전체학, 지능형 의료기기의 발전을 중심으로 의학분야의 AI 혁신에 대해 포괄적인 견해를 제시했습니다.
“현재 생물학에 디지털 혁명이 일어나고 있습니다. 여기에서 생성된 엄청난 양의 데이터는 인간의 지각으로 이해하기에는 너무 복잡하죠. 하지만 우리는 알고리즘과 연산을 언제든 사용할 수 있게 되면서 데이터라는 세번째 요소를 가지고 진정한 AI 의료 시대에 진입할 수 있게 된 것입니다.”
스탠포드 대학의 겸임교수이자 AI 제약 기업인 인시트로(Insitro)의 CEO인 다프니 콜러는 GTC 강연에서 약물 개발의 어려움과 예측 머신 러닝 모델이 질병과 관련된 생물학적 데이터를 쉽게 이해시키는 방식을 설명하며 AI 솔루션을 집중 조명했습니다.
“디지털 생물학은 우리가 완전히 새로운 방식으로 생물학적 시스템을 측정하고, 데이터 과학과 머신 러닝을 통해 측정할 수 있는 것을 분석한 다음 그걸 생물공학에 접목시켜 과거에는 우리가 할 수 없었던 것들을 가능하게 해줍니다”라고 설명했습니다.
데이터가 제공하는 질병에 대한 통찰력
원핵생물 유기체의 게놈에서 발견되는 DNA서열(CRISPR), 유도 만능줄기세포, DNA 염기서열의 다양한 활용성 등과 같이 최근 생명공학에서 일어나고 있는 진보 덕분에 과학자들은 “엄청난 데이터”를 수집할 수 있게 되어 “이제 우리는 데이터를 해석하는 방법에 대해 고민해야 합니다”라고 다프니 콜러가 말했습니다.
또한, “다행스러운 건 또 다른 혁신이 일어나고 있다는 점입니다. 머신 러닝을 사용해 아주 대규모의 데이터에서 패턴을 분석하고 식별이 가능해지면서 사실상 실생활의 모든 분야가 변화됐습니다.”라고 말했죠.
데이터 기반으로 약물을 발견하는 과정에는 연구자들이 질병의 생물학적 구조를 이해한 후에 질병 경로에 따라 중요한 단백질에 결합될 수 있는 잠재적 화합물을 조사하는 일이 수반되는데요. 유망한 치료제를 찾는 작업은 복잡한 최적화 문제와 관련됩니다. 지난 일 이십 년간 이용 가능한 디지털 데이터의 양이 기하급수적으로 증가했음에도 불구하고 약물 발견 프로세스는 점점 더디게 진행됐고 비용도 많이 들었죠.
이룸의 법칙(Eroom’s law)으로도 잘 알려진 이러한 현상은, 신약을 상품화하는 데 필요한 연구개발비가 1980년대 이후 꾸준히 상승해서 제약회사들이 들인 시간과 비용을 증가했음을 보여줍니다. 콜러 CEO는 그 원인을 잠재적인 모든 약물이 사용 허가를 받지 못했기 때문이라고 지적합니다.
“인시트로의 기업 목표는 이러한 문제점을 이해하고 적절한 데이터를 생성하면서도 머신 러닝을 사용해 더 나은 의사결정을 내리고 많은 문제점을 해결해 나가는 것입니다. 머신 러닝은 사람들이 인지하지 못하는 부분들을 밝혀낼 수 있습니다.”라고 말했습니다.
AI를 방대한 데이터 세트에 활용하면 표현형(phenotype)으로 알려진 키와 몸무게와 같은 물리적 특성이 유전자형으로 알려진 유전자 변형과 어떠한 방식으로 맞물리는지 결정하는 데 도움이 됩니다. 콜러 CEO는 많은 경우에 “이러한 연관성이 질병의 인과적 동인을 밝힐 수 있는 단서가 됩니다”고 말했죠.
콜러 CEO는 비만과 당뇨와 관련된 간 질환인 비알콜성 지방간염(NASH)를 예로 들었는데요. 비알콜성 지방간염의 근본적인 원인과 잠재적 치료법을 연구하기 위해, 인시트로는 바이오 제약 회사 길리어드(Griared)와 협력했습니다. 수많은 환자에서 뽑아낸 임상시험 데이터에서 얻은 간 생체검사와 RNA 서열 데이터에 머신 러닝을 적용했죠.
인시트로 연구팀은 생체검사 영상을 분석해 환자의 질병 상태에 대한 정량적 표현을 포착하는 머신러닝 모델을 만들었고, 약간의 감독만으로도 AI의 예측치가 임상병리사가 부여한 수치와 일치한다는 사실을 발견했습니다. 이 모델들은 비알콜성 지방간염이 있는 영상과 없는 영상을 구별해 내지만, 육안으로는 판단하기에 아주 어렵습니다.
AI 의료 시대 가속화
풍부한 데이터가 있다고 해서 효과적인 의학용 딥 러닝 모델을 만들 수 있는 것은 아닙니다. NVIDIA 헬스케어 부사장 킴벌리 파월은 GTC 강연에서 의료 데이터 세트의 요구와 특징에 특화된 NVIDIA Clara 애플리케이션 프레임워크와 같은 도메인별 컴퓨팅 플랫폼을 중점적으로 소개했습니다.
NVIDIA Clara Discovery의 AI 라이브러리 제품군은 자연어 처리에서 인기 있는 트랜스포머(transformer) 모델을 활용해 생물의학적 데이터를 분석합니다. 트랜스포머 모델을 훈련하는 NVIDIA Megatron 프레임워크를 사용하면 수십억 개의 매개변수를 가진 AI 모델을 쉽게 구축할 수 있죠. 이러한 트랜스포머 기반 AI 모델의 예로, MegaMolBart는 반응 예측, 분자 최적화, 드노보(de novo) 분자 생성에 사용하기 위해 NVIDIA가 영국의 제약회사 아스트라제네카(AstraZeneca)가 협력 개발한 자연어처리(NLP) 생성 약물 발견 모델입니다.
미국 플로리다 대학의 보건대도 NVIDIA Megatron 프레임워크와 NVIDIA BioMegatron 사전 훈련 모델을 사용해 현존 최대규모의 임상 언어 모델인 GatorTron을 개발했습니다. 이는 5천만 건 이상의 상호작용으로 200만 건 이상의 환자 기록을 대상으로 훈련시킨 모델이죠.
NVIDIA 헬스케어 부사장 파월은 “페타바이트 규모의 생물의학 데이터와 수십억 개, 곧 수조 개에 달할 매개변수 규모로 학습시킨 트랜스포머 모델은 의학계의 상상을 뛰어넘는 작업을 가능하게 하며 새로운 결과물을 발견하게 해줍니다”라고 밝혔습니다.
의료 기록, 의료 영상 기기, 실험실 테스트, 환자 모니터링, 수술 절차에서 얻은 데이터를 분석한 AI 결과물은 임상학적 결정을 내리는 데 도움을 주죠.
NVIDIA 헬스케어 부사장 파월은 “모든 병원은 다 동일하지 않으며, 의료 서비스도 다 똑같지 않습니다. 따라서 미래를 예측하고, 밝혀지지 않는 것을 발견하고, 의료업체가 복잡한 의사결정을 내릴 수 있도록 지원하는 알고리즘을 개발할 수 있는 전체 에코시스템 접근법이 필요합니다”라고 말했습니다.
NVIDIA Clara 프레임워크에는 NGC 카탈로그에서 사용할 수 있는 40개 이상의 도메인별 사전 교육 모델이 있습니다. 다양한 기관이 환자 데이터를 서로 공유하지 않고도 AI 모델 개발에 협력할 수 있으며, 데이터 거버넌스와 개인정보 보호 문제를 극복하도록 지원하는 NVIDIA Federated Learning도 포함됩니다.
차세대 지능형 의료기기를 한층 발전시킬 수 있는 신규 NVIDIA Clara AGX 개발자 키트는 내시경, 초음파 장치, 현미경 등 스마트 센서 전반에서 병원이 AI 기술을 개발하고 구축하는 데 도움을 줍니다.
NVIDIA 헬스케어 부사장 파월은 “센서 기술이 혁신을 거듭하고 있어서 이를 처리하는 컴퓨팅 플랫폼도 함께 발전해야 합니다. AI를 사용하면 기기가 소형화되고 가격이 낮아지며 미숙한 사용자들도 사용방법을 수월하게 익힐 수 있습니다”라고 전했습니다.
또한, “이러한 AI 기반 기기는 현재 의료 진단을 받기 어려운 세계 각지에 도움을 줄 수 있습니다. AI 기술과 컴퓨팅을 갖춘 지능형 센서는 생물학을 측정하거나, 우리 신체 내부 현상을 관찰하고, 수술 집도를 할 수 있는 기기로 변모하고 있습니다.”라고 말했죠.
더 자세한 사항은 NVIDIA 헬스케어 트위터에서 확인하실 수 있습니다.