엔비디아 AI 워크스테이션으로 코로나19 신약 개발 속도낸다

기존 CPU 대비 최대 6배 빠른 학습 속도로 코로나19 치료에 적합한 약물 분자 발견에 이용하는 엔비디아 DGX 스테이션
by NVIDIA Korea

연구자들이 코로나19 치료에 적합한 약물 분자를 발견하기 위한 긴박한 연구에 몰두하고 있습니다. 문제는 약물 후보군 분자의 수가 자그마치 1060개에 달할 것으로 추정된다는 사실인데요.

일본 도쿄의 스타트업 엘릭스(Elix)의 공동창립자 겸 CEO 유키 신야(Shinya Yuki)는 “가설적으로 분자를 1초에 1개씩 확인한다고 해도 약물 후보 물질을 모두 검토하는 데는 수십억 년이 걸려도 모자랄 겁니다. AI는 문제 해결이 가능한 모든 방법을 효율적으로 검토해 신약개발, 신소재개발, 바둑 등 다양한 분야의 난제를 해결할 수 있죠”라고 설명합니다.

엘릭스는 딥 러닝을 이용해 신약개발을 가속화합니다. 컴퓨터 시뮬레이션보다 훨씬 빠르게 분자의 성질을 예측하는 신경망을 구축하는 것이죠. 현재는 미국 FDA 승인을 받았거나 현재 임상시험 단계에 있지만 코로나바이러스 치료로 용도 변경이 가능한 약물을 AI로 찾아내며 코로나19 연구를 지원하고 있습니다.

유키 신야 CEO는 “신약을 처음부터 개발하려면 수년이 걸리는데 현재 코로나 팬데믹과 상황에는 맞지 않죠”라면서 “속도가 관건입니다. 임상 안전성 기록이 이미 확보된 후보들을 재평가해 신약으로 개발하는 신약재창출(drug-repurposing)에 활용할 수 있다면 신약개발에 소요되는 시간과 비용을 획기적으로 절감할 수 있습니다”라고 말합니다.

엘릭스는 최근 FDA 승인을 거쳐 임상시험 단계에 있는 약물 중 자사 AI 모델이 코로나19 치료제 후보로 선정한 약물에 관한 논문을 발표했습니다. 엘릭스의 AI 모델이 지목한 후보에는 최근 FDA가 코로나바이러스 케이스에 응급 사용을 허가한 항바이러스성 약물인 렘데비시르(remdevisir)가 포함되어 있는데요.

스타트업의 보다 신속한 시장 진입을 지원하는 엔비디아 인셉션(NVIDIA Inception)의 회원사이기도 한 엘릭스는 자사 딥 러닝 알고리즘의 학습과 추론에 엔비디아 DGX 스테이션(NVIDIA DGX Station)을 활용하고 있습니다. 유키 신야 CEO는 개발자와 AI 연구자들을 위해 엔비디아가 마련한 디지털 컨퍼런스인 ‘GTC 디지털’의 ‘인셉션 스타트업 쇼케이스’에서 신약개발용 AI을 이용한 엘릭스의 활약상을 소개하기도 했습니다.

엘릭스의 신약개발용 AI

분자적 측면에서 볼 때 약물의 형태와 적응성, 표적 단백질과 결합하는 상호작용 에너지 등이 완벽한 조화를 이뤄야 성공적인 약품이라 할 수 있는데요. 표적 단백질의 대표적인 예로 코로나19를 유발하는 SARS-CoV-2의 바이러스막을 덮고 있는 ‘스파이크(spike, 돌기) 단백질’을 들 수 있습니다.

이미지
코로나19의 원인 병원체 SARS-CoV-2의 표면은 스파이크 단백질로 덮여 있습니다. 이미지 제공: CDC, 알리사 에커트(MSMI), 댄 히긴스(MAMS), 퍼블릭 도메인으로 사용 승인

이 스파이크 단백질이 인간의 체세포에 부착되면 바이러스가 세포 안으로 침투하게 되고 코로나19에 감염되게 됩니다. 효과적인 항바이러스 약물이라면 이 부착 프로세스를 방해할 수 있어야겠죠. 약물 분자가 스파이크 단백질의 수용체와 결합해 SARS-CoV-2 바이러스가 인간의 세포에 부착되는 것을 막는 방식입니다.

엘릭스는 가능성이 있는 분자 후보의 수를 다양한 신경망을 이용해 신속하게 줄여 나가면서 연구자들이 최선의 약물을 찾아낼 수 있도록 지원합니다. 이에 따라 실험실에서는 탐색 범위는 더 좁고 문제 해결 가능성은 더 높은 분자들을 대상으로 물리시험을 진행할 수 있게 됩니다.

엘릭스의 예측 AI 모델은 데이터베이스를 분석해 해당 약물이 특정 질병의 치료에 적합한 물리적∙화학적 성질을 지니고 있는지 추론할 수 있습니다. 여기에 생성 모델을 사용하면 제로의 상태에서 시작해 향후가 기대되는 분자 구조까지 만들어낼 수 있는데요, 경우에 따라서는 자연계에 존재하지 않는 것까지 생성한다고 합니다.

바로 여기에서 세 번째 신경망인 역합성 모델(retrosynthesis model)이 등장합니다. 역합성 모델은 생성된 분자를 실험실에서 합성할 수 있는지 여부를 확인할 수 있게 도와줍니다.

엘릭스는 데이터 사이언스 개발팀을 위한 GPU 구동 AI 워크스테이션인 엔비디아 DGX 스테이션 시스템을 다중으로 활용해 신경망의 학습과 추론을 가속화합니다. 기존 CPU 대비 학습 속도를 최대 6배까지 올릴 수 있는 GPU를 탑재하고 있죠.

유키 신야 CEO에 따르면 생성 모델의 경우 신경망이 오차율 최저점에 도달하는 컨버전스까지 학습하는 데 일주일 이상이 걸리기 때문에 가속화가 필수적입니다. DGX 스테이션 1개당 엔비디아 V100 텐서 코어(Tensor Core) GPU 가 4개씩 장착되어 있어 보다 규모가 큰 AI 모델을 구동하고 복수의 실험을 동시에 진행할 수 있습니다.

유키 신야 CEO는 “DGX 스테이션은 기본적으로 슈퍼컴퓨터입니다. 복수의 사용자가 하나의 기계를 동시에 사용하는 것이 일반적이죠. 우리는 모델의 학습 속도만 높일 수 있는 게 아닙니다. 한 번에 15개 실험을 동시에 진행하는 것도 가능합니다”라고 설명합니다.

엘릭스의 고객사는 제약회사, 연구기관, 대학 등입니다. 제약산업에서 분자 데이터는 민감한 지적재산권 문제에 해당하기 때문에 고객사들이 엘릭스의 AI 모델을 독자적인 온프레미스 서버에서 구동하기로 결정하는 경우가 대부분입니다.

엘릭스는 신약개발뿐 아니라 머티리얼 인포매틱스(material informatics)를 위한 분자 디자인에도 AI를 활용해 고무∙타이어 제조사 브리지스톤(Bridgestone), 일본 최대 연구기관인 이화학연구소(RIKEN) 등과 협력하고 있습니다. 또한 자율주행자동차와 엣지단의 AI를 위한 컴퓨터 비전 모델도 개발합니다.

글로벌 화학회사인 일본촉매(Nippon Shokubai)와 엘릭스가 진행하는 프로젝트에서는 잉크의 블랜딩 소재로 쓰이면서 피부 자극은 적은 분자를 생성하고 있습니다.

유키 신야 CEO의 ‘GTC 디지털 라이트닝 토크(GTC Digital lightning talk)’에서 엘릭스와 관련한 더 많은 정보를 만나보세요. 엔비디아의 COVID 페이지에서는 AI와 연산 가속화를 통해 팬데믹에 맞서는 스타트업들의 소식을 확인할 수 있습니다. 엔비디아가 전하는 의료분야 최신 뉴스도 잊지 마세요.

메인 이미지 크레딧: 카오스(Chaos). 위키미디어 커먼스, CC BY-SA 3.0 사용 승인.