뉴욕주립대학교의 한 연구팀이 인공지능(AI)과 슈퍼컴퓨터 시뮬레이션을 활용해 코로나19를 진압할 만반의 준비를 갖췄습니다! 코로나바이러스를 구성하는 단백질들을 파악하는 것인데요. 운이 좋으면 이 단백질들을 단서로 삼아 코로나바이러스 무력화에 효과적인 신약을 규명할 수 있다고 하네요!
뉴욕주립대학교 스토니브룩 캠퍼스 산하 라우퍼 물리⋅양적생물학 센터(Laufer Center for Physical & Quantitative Biology)의 책임을 맡고 있는 켄 딜 교수는 이번 코로나 19 대유행이 “전 세계적인 끔찍한 사건이며 연구자들에게는 크나큰 도전”이었다고 말합니다.
켄 딜 교수는 10여년 동안 라우퍼 물리⋅양적생물학 센터를 도와 단백질의 작동 원리 연구에 필요한 연구자와 툴들을 확보해왔습니다. 단백질이라는 복잡한 분자는 세포의 생존에 필수적입니다. 라우퍼 물리⋅양적생물학 센터는 자체적으로 보유한 지식을 바이러스 단백질에 적용하고 이를 무력화하는 신약의 개발에 기여한 경험이 있죠.
켄 딜 교수는 “그래서 이번 코로나 19 대유행이 닥쳤을 때도 우리 연구자들은 즉각적으로 연구에 돌입하기를 원했습니다.”라고 회상했습니다.
AI와 시뮬레이션, Summit에서 만나다
라우퍼 물리⋅양적생물학 센터 연구팀은 물리학과 AI 툴을 조합해 코로나바이러스 단백질의 3D 구조를 예측하고자 했습니다. 코로나바이러스의 아미노산 서열 목록에 기초해 단백질 12종 이상을 실험했죠. 이 프로젝트는 미국 오크리지국립연구소(Oak Ridge National Laboratory)에 설치된 IBM의 슈퍼컴퓨터 서밋(Summit)으로 복잡한 계산의 고속 처리를 진행할 기회를 얻었습니다.
라우퍼 물리⋅양적생물학 센터의 밀리아노 브리니(Emiliano Brini) 연구원은 진행 과정을 이렇게 설명합니다. “엄청난 대규모 시뮬레이션 30개를 병렬로 실행했습니다. GPU는 시뮬레이션당 1개씩 총 30개를 배정했고, 최소 나흘간 쉬지 않고 구동했습니다. Summit이 위대한 건 GPU를 대량으로 탑재하고 있어 다수의 시뮬레이션을 병렬 실행할 수 있다는 점입니다.”
켄 딜 교수는 “우리의 물리 기반 모델링은 명령의 실행에 상당히 긴 시간이 소요됩니다. 속도를 높이기 위해 GPU를 거의 단독으로 사용하고 있죠.”라고 귀띔했습니다.
NVIDIA GPU로 가속화되는 바이러스 연구
가속화를 달성한 덕분에 예측 결과가 속속들이 나오고 있습니다. 연구팀은 결과들을 100여명의 연구자와 신속히 공유했습니다. 이 연구자들은 코로나바이러스 단백질의 실제 구조를 규명하기 위한 12개의 다른 프로젝트들은 실험 진행 속도가 고통스러울 정도로 느리다고 하는데요.
켄 딜 교수는 “바이러스 단백질의 3D 구조를 밝히는 이 연구에서 아이디어를 얻어 전보다 속도를 높이는 실험들이 나올 것으로 기대하고 있습니다.”라고 전했습니다.
이제는 때가 오기를 기다리는 일만 남았습니다. 이번 예측을 기반으로 바이러스의 약점을 찾고 그 약점을 파고들 신약을 규명할 수 있다면 어마어마한 승리일 것입니다. 그렇게만 된다면 동네 약국 진열장에 항바이러스제가 비치되는 그 날에 한걸음 더 가까워지겠죠.
머신 러닝과 물리학의 결합
켄 딜 교수의 연구팀은 MELD(Modeling Employing Limited Data)라 불리는 분자 역학 프로그램을 사용합니다. MELD는 통계모델 기반 머신 러닝으로 얻은 인사이트를 물리 시뮬레이션과 결합하는 프로그램이죠.
MELD가 아미노산 염기서열에서 단백질의 3D 구조를 예측할 수 있도록 핵심 정보를 제공하는 역할은 AI가 맡습니다. AI는 지난 50년간 수집한 단백질 20만여 종의 원자 수준 정보가 담긴 데이터베이스에서 빠른 속도로 패턴을 찾아냅니다.
MELD는 AI가 찾아낸 정보를 연산집약적 물리 시뮬레이션에서 처리해 해당 단백질의 세부 구조를 파악하는데요. 여기에 각종 시뮬레이션들을 추가하면 특정 바이러스 단백질과 보다 강력히 결합하는 약물 분자 예측 등의 작업을 수행할 수 있습니다.
켄 딜 교수는 “AI 추론과 물리 시뮬레이션이라는 두 세계가 신약 개발에 크게 기여하고 있는 셈”이라면서 이렇게 덧붙였습니다. “두 가지 기법의 이점을 모두 취할 수 있다는 점에서 이 조합에 우리의 미래가 있다고 봐도 과언이 아닙니다.”
MELD는 GPU 가속 컴퓨팅 플랫폼 NVIDIA CUDA에서 구동됩니다. 밀리아노 브리니 연구원은 “CPU의 경우 시뮬레이션 실행에 엄청나게 오랜 시간이 걸릴 것이기 때문에 생물학 시뮬레이션 대부분을 GPU로 구동하고 있습니다”라고 설명합니다.
코로나 바이러스를 극복할 날을 기다리며
라우퍼 물리⋅양적생물학 센터의 연구자들은 코로나19라는 도전에 맞서 화학에 대한 열정으로 무장하고 연구에 매진했습니다. 그리고 이제 Summit으로 진행한 작업의 피드백을 기다리고 있죠.
“일단 결과가 나오면 오류로부터 배운 점들을 공개할 겁니다. 상황에 따라서는 처음부터 다시 시작해야 하는 경우도 허다하죠.”
물론 가끔은 축하할 일도 있는 법입니다.
켄 딜 교수는 Summit 작업이 끝난 후 동료 6명을 초대했습니다. 자택 뒤뜰에서 사회적 거리두기를 준수하며 작은 모임을 가졌다고 하는데요. 기다리는 결과가 성공적이라면 뉴욕주립대학교 스토니브룩 캠퍼스뿐 아닌 전 세계가 그 승리를 축하할 것입니다.