제약회사들은 데이터를 공유하는 것을 원하지 않습니다. 협업으로 인해서 지적재산권 침해 등의 문제와 경쟁업체에 시장 우위를 빼앗기는 상황이 발생할 수 있기 때문이죠.
그러나 데이터 공유를 통해 얻을 수 있는 장점도 있는데요. 제약회사가 사용 가능한 데이터를 더 많이 보유하고 있을수록 연구자들은 보다 빠르게 신약 개발을 할 수 있다는 점입니다. 궁극적으로 신약 후보를 성공적으로 개발할 수 있는 가능성은 높아지면서 치료 비용은 절감할 수 있게 되죠.
MELLODDY 프로젝트의 책임자인 휴고 슐레만스(Hugo Ceulemans)에 따르면 신약을 시장에 출시하는데 평균적으로 13년 정도 걸리며 개발 비용은 거의 20억 달러에 달한다고 합니다. MELLODDY 프로젝트는 신약개발 컨소시엄으로서 정보 공유와 정보 보안 간의 간극을 줄이고자 하죠.
이 프로젝트는 지식재산권(IP)을 보호하는 동시에, 다수의 제약 회사들의 데이터로 AI 모델을 교육하기 위해 클라우드 기반 NVIDIA GPU와 연합 학습으로 알려진 분산 접근 방식을 사용할 계획입니다.
MELLODDY 프로젝트는 Machine Learning Ledger Orchestration for Drug Discovery의 약자입니다. 이 프로젝트에는 총 17개의 파트너사들이 참여하고 있는데요. 암젠(Amgen), 바이엘(Bayer), GSK, 얀센(Janssen Pharmaceutica), 노바티스(Novartis) 등 10개의 제약사와 KU 로이벤(KU Leuven), 부다페스트 기술경제대학교(Budapest University of Technology and Economics) 등 최고 수준의 유럽 대학들, 그리고 4개의 업계 선두 스타트업이 참여합니다. 엔비디아 인공지능 컴퓨팅 플랫폼도 함께하죠.
제약회사들은 아마존웹서비스(AWS)에서 관리하는 각각의 엔비디아 v100 텐서 코어 GPU(NVIDIA v100 Tensor Core GPUs) 클러스터를 사용하게 됩니다. MELLODDY 프로젝트 개발자들은 이러한 독특한 클라우드 클러스터 간에 이동할 수 있는 분산된 딥 러닝 모델을 만들어 무려 천만 개의 화학 화합물에 대한 주석 데이터를 훈련합니다.
제약회사들은 AI 모델을 미세하게 조정함으로써 필요한 특정한 분야에 맞게끔 AI모델을 조정해 나갈 수 있죠. 각 제약회사들의 연구 프로젝트는 MELLODDY 의 데이터 보안 임무의 일환으로 기밀로 유지됩니다.
얀센의 신약 개발 데이터 과학 책임자인 슐레만스는 “신약 개발을 가상 현실화하는 기술이 한층 발전할 것으로 기대됩니다. 덕분에 보다 효율적이고 효과적이며, 안전한 치료법을 더 많이 도입할 수 있을 것으로 기대합니다”라고 말하며, “머신 러닝과 데이터 과학에 관심 없는 업계는 있을 수 없죠”라고 덧붙였죠. .
연합 학습(federated learning)으로 데이터 공유의 새로운 패러다임을 열다
MELLODDY 프로젝트는 제약회사들에게 연합 학습 기술을 통해 세계 최대 규모의 제약 데이터 세트를 공유하면서도 데이터를 보호할 수 있는 방법을 제시하고자 합니다.
MELLODDY 프로젝트는 2,000만 달러 규모로 2년간 진행될 예정이며, 학습 내용을 대중에 공유할 예정입니다.
연합 학습은 교육 데이터를 단일 종합 서버에서 끌어 올 필요가 없는 분산 방식의 머신 러닝 기법입니다. 머신 러닝 모델은 서로 다른 장소에 저장된 데이터를 통해 학습하면서 각 제약 회사들이 소유한 데이터 세트가 자체 보안 인프라에 유지되도록 보장합니다.
MELLODDY 프로젝트의 연합 학습 시스템을 개발하는 스타트업 Owkin의 프로젝트 코디네이터인 메티유 갈티어(Matheiu Galtier)는 “데이터가 유출될 위험은 전혀 없습니다. 훈련을 위한 데이터 알고리즘들이 서버 간 이동하며, 데이터는 자체 GPU 서버에 그대로 남아 있기 때문이죠”라고 말했습니다.
제약 관련 데이터 세트는 다양한 화학 화합물과 그 속성들에 대한 이력정보로 구성됩니다. 파트너사들은 다용도의 MELLODDY 연합 연습 모델을 통해 특정 약제 화합물들에 대해 익명으로 문의할 수 있습니다. 이 문의 사항들은 프로젝트의 기관의 각 데이터 보관소로 전송돼 잠재적인 일치 항목들을 구별하게 되죠.
MELLODDY 프로젝트는 블록체인 원장 시스템을 채택해 협력 제약사들이 소유하고 있는 데이터 세트들에 대한 투명성과 통제권을 유지하도록 할 예정입니다.
컨소시엄은 제약회사들이 기존 경쟁업체의 독점 데이터 세트에 직접 접근하지 않고도 서로의 연구 결과를 학습할 수 있도록 해 인공지능에 기반한 의약품 발견의 예측을 향상시키는 것을 목표로 하고 있습니다.
보다 더 스마트한 모델 출시로 신약 개발 비용을 절감할 날이 머지 않기를 기대합니다.