데이터 사이언스 볼에서 개발된 신약 개발 속도를 높이는 딥 러닝 알고리즘
데이터 사이언스 볼 수상자들이 신약 개발에서 중요한 단계를 가속화하기 위해 딥 러닝을 사용했습니다.
셋은 하나보다 낫습니다. 지난해 라이벌이었던 3명이 팀을 이루어서, 올해 데이터 사이언스 볼(Data Science Bowl) 영예의 대상을 차지했습니다.
올해로 4회를 맞이한 데이터 사이언스 볼은 헬스케어 분야에서 가장 시급한 문제 중 하나를 다루었는데요. 바로 신약을 개발하는데 드는 비용과 시간에 관한 것입니다. 대회에는 90일이 넘는 기간 동안 18,000명의 참가자들이 참가했는데요. 참가자들은 신약 개발 파이프라인 단계인 각 세포의 핵 식별을 가속화하는 딥 러닝 알고리즘을 만들기 위해 치열한 경쟁을 펼쳤습니다.
경연의 비영리 파트너인 MIT 및 하버드 대학교 브로드 연구소(Broad Institute of MIT and Harvard) 영상 플랫폼 소장인 앤 카펜터(Anne Carpenter)는, 올해 데이터 사이언스 볼이 “새로운 치료법을 보다 빠르고 정확하게 개발해야 하는 필요에 의해 개최되고 진행되었습니다”라고 말했습니다.
데이터 사이언스 볼 참가자들은 MIT 및 하버드 대학교 브로드 연구소가 제공한 위와 같은 이미지를 활용, 세포의 핵을 발견하고 신약 개발을 가속화시키는 딥 러닝 알고리즘을 훈련했습니다
국제 연합 팀이 상을 받다
데이터 사이언스 볼의 수상자들은 무려 4,000여 팀을 제쳤는데요. 컨설팅 회사 부즈 앨런 해밀턴(Booz Allen Hamilton)과 데이터 사이언스 경쟁을 위한 플랫폼 캐글(Kaggle)이 시상을 진행했으며, 엔비디아와 의료 기구 회사 퍼킨엘머(PerkinElmer)가 추가로 후원을 했습니다. 최고의 알고리즘을 만든 팀은 미화(USD) 170,000 달러의 상금과 함께 딥 러닝을 위한 강력한 엔비디아 GPU 하드웨어를 상으로 받았습니다.
수상자들은 고밀도 의료 영상에서 세포의 핵을 발견하는 어려움 외에도 다른 여러 고충이 있었는데요. 영예의 주인공들인 셀림 세페르베코프(Selim Seferbekov), 알렉산더 부슬라에프(Alexander Buslaev), 그리고 Victor Durnov(빅터 두르노프)는 독일, 벨라루스, 러시아 3개국의 6개의 표준 시간대를 넘어 협력해야 했습니다. 팀은 엔비디아의 GPU로 트레이닝과 추론을 진행하였고, 알고리즘을 만들고 구현하기 위해 300 시간이 넘게 일했습니다.
이들의 노력은 결국 모두 보상 받았습니다. 팀은 50,000 달러를 현금으로 받고, 약 70,000 달러에 달하는 엔비디아의 새로운 볼타(Volta) 아키텍처 기반으로 구축된 최신 엔비디아 GPU 를 받았습니다. 볼타는 엔비디아 쿠다 텐서 코어(CUDA Tensor Core)를 사용하여, 연구진에게 가장 강력한 툴인 엔비디아 DGX 스테이션과 같은 하드웨어에서 전례 없는 수준의 딥 러닝 성능을 제공합니다.
여러 기록을 갈아치운 데이터 사이언스 볼
종합해보면, 이번 경연의 참가자들은 약 288,000 시간을 작업하고 68,000 알고리즘을 만들어서 제출했는데요. 이는 작년 데이터 사이언스 볼 보다 거의 3배나 많은 수치입니다.
1등부터 3등을 차지한 팀 모두 엔비디아 GPU를 활용해 좋은 결과를 도출했는데요. 2등과 3등을 한 팀의 자세한 정보는 다음과 같습니다.
- 2등 (25,000 달러): 장 밍시(Minxi Jiang), 작년 데이터 사이언스 볼에서 상위 1%안에 들었으며 베이징 소재 스타트업의 수석 데이터 사이언티스트
- 3등 (12,000 달러): 앙엘 로페즈-우루티아(Angel Lopez-Urrutia), 스페인 해양 생물학자이며 첫 데이터 사이언스 볼 경연의 핵심 과제였던 플랑크톤 이미지 자동 분류에 머신 러닝을 사용
데이터 사이언스 볼에서 연구원들은 신약 개발의 속도를 높이기 위해 위와 같은 이미지를 사용해서 딥 러닝 알고리즘을 트레이닝 했습니다. 이미지 출처: MIT 및 하버드 대학교 브로드 연구소
신약 개발의 장애물
신약을 개발하는 일은 매우 복잡하고 힘든 일인데요. 하나의 치료제 개발에 10년 이상이 걸릴 수 있고 수십억 달러가 소요되는 경우도 있습니다. 생화학자들은 수 천여 가지의 화학 혼합물을 실험해서 어떤 것이 특정 바이러스나 박테리아에 효과가 있는지, 인체에 기대했던 반응을 일으키는 것은 무엇인지 연구합니다. 이들은 병에 걸린 세포와 건강한 세포가 다양한 치료제에 어떻게 반응하는 지를 통해 해당 연구를 진행합니다.
거의 모든 인간의 세포는 핵을 갖고 있기 때문에, 각 세포를 확인하는 가장 확실한 방법은 핵을 찾는 것입니다. 기존의 방법들은 연구원이 오랜 시간에 걸쳐 지켜봐야 했는데요. 어떤 경우에는 생물학자들이 수 천 개의 이미지들을 직접 확인해서 실험을 마쳐야 했습니다.
부즈 앨런 해밀턴의 대표 레이 헨스베르거(Ray Hensberger)는 “경연에서 개발된 알고리즘들은 세포의 핵을 신속하고 정확하게 식별함으로써, 생물학자들이 연구의 다른 부분에 집중할 수 있도록 돕습니다. 개별 신약의 개발 및 출시 과정을 대략 10년 정도 단축시킬 수 있으며, 궁극적으로는 삶의 질을 향상시킬 수 있습니다”라고 설명했습니다.
브로드 연구소의 카펜터 소장은 수상 알고리즘을 활용해서 신약 개발을 위한 딥 러닝 소프트웨어를 구축하는 것을 목표로 하고 있습니다. 브로드 연구소는 연구원들이 일상 업무에서 사용할 수 있는, 사용하기 쉬운 오픈 소스 소프트웨어를 개발하기 위해 노력하고 있습니다.
헬스케어 분야의 딥 러닝을 발전시키기는 엔비디아 기술에 대해 자세히 알아보세요
* 제목 상단의 메인 이미지는 세포의 유전 물질을 포함하고 있는 인간의 세포 핵을 보여줍니다. 빨간색은 RNA 프로세싱 단백질이고, 파란색은 염색체입니다