우리 인생의 선택들이 인간의 DNA를 바꿀 수 있습니다. 정말로요.
사람의 일생 동안 세포에서는 유전자 변화가 일어납니다. 이를 체세포 돌연변이(somatic mutation)라고 부르는데요. 바로 이것이 대다수 암의 발병 원인입니다. 자외선이나 방사능 노출, 흡연이나 음주 등의 환경적 또는 행동적 요인이 체세포 돌연변이를 유발합니다.
돌연변이 서명(signature) 혹은 분자지문(molecular fingerprint)을 분석하면 자세한 발암 원인을 파악하고 새로운 위험인자를 발견할 수 있습니다. 또 지역별 특정 암의 발생 현황도 알아볼 수 있다는 데요. 이러한 연구에 엔비디아 GPU를 활용할 수 있습니다.
영국 암 연구소의 지원을 받는 국제 연구그룹인 캔서 그랜드 챌린지(Cancer Grand Challenges)의 무토그라프(Mutographs) 팀이 현재 엔비디아 GPU 가속 머신 러닝 모델을 활용해 췌장암, 신장암, 직장암, 식도암 2종을 앓고 있는 환자 5,000명의 종양에서 추출한 DNA를 연구하고 있습니다.
무토그라프 팀에는 전세계 유전체학을 주도하는 웰컴 생거 연구소(Wellcome Sanger Institute)와 캘리포니아대학교 샌디에이고 캠퍼스(UCSD) 연구진이 소속돼 있습니다. 이들 연구진은 엔비디아의 개발자들과 협업하고 있는데요. 엔비디아 DGX 시스템을 사용하면 머신 러닝 소프트웨어인 SigProfiler의 구동이 30배 이상의 빨라진다고 합니다.
웰컴 생거 연구소 소속 정보과학 지원 그룹 리더인 피트 클래펌(Pete Clapham)은 “무토그라프 팀의 연구 프로젝트는 가능성의 경계를 확장한다는 점에서 원대한 도전입니다. 엔비디아 DGX 시스템으로 상당한 가속화가 이뤄지면서 무토그라프 팀은 프로젝트에 필요한 수준을 넘어 전에는 불가능했던 결과들을 효율적으로 산출할 수 있는 연산 능력을 확보하게 됐죠”라고 말했습니다.
돌연변이 끝까지 추적한다
사람마다 고유한 지문을 가지고 있듯 암을 유발하는 체세포 돌연변이도 세포의 DNA에 고유한 패턴을 남깁니다.
무토그라프 팀의 컴퓨팅 작업을 책임지고 있는 루드밀 알렉산드로프(Ludmil Alexandrov) UCSD 세포분자의학 조교수는 이렇게 설명합니다. “수사관들은 범죄 현장에서 채취한 지문을 데이터베이스에 넣고 돌려 일치하는 사람을 찾아냅니다. 마찬가지로 환자의 조직에서 수집한 세포에서 분자지문을 특정해 그것이 흡연이나 자외선 노출로 인한 위험인자와 일치하는지 살펴볼 수 있습니다.”
알렉산드로프 교수의 설명대로 일부 체세포 돌연변이의 경우 그 원인이 이미 알려져 있죠. 그러나 특정 암환자들에게서 반복적으로 나타나지만 원인은 아직 밝혀지지 않은 돌연변이 패턴들은 머신 러닝을 활용해 밝혀낼 수 있습니다.
이러한 패턴이 발견되면 알렉산드로프 교수는 다른 과학자들과 팀을 구성해 가설을 테스트하고 발암의 원인을 규명하기 위한 대규모 실험을 진행합니다.
위험인자를 새로 발견하면 암 예방률을 높일 수 있습니다. 2018년에 연구자들은 돌연변이 서명을 역추적해 피부암의 원인으로 면역억제제를 지목한 바 있습니다. 해당 약품의 부작용 목록에 피부암이 포함되었고 의사들은 이 약을 처방받은 환자들을 보다 주의 깊게 모니터링하게 됐습니다.
바람처럼 빠른 데이터 처리
돌연변이 서명의 원인이 알려진 경우 연구자들은 시기와 지역별로 특정 체세포 돌연변이 발생 추이를 분석할 수 있습니다.
알렉산드로프 교수는 “지역에 따라 특정 암의 발생 빈도가 아주 높기도 하고 희박하기도 합니다. 국가간 이동을 하는 이들의 경우 이동 지역의 발암 위험을 고스란히 획득하는 경우가 많아요. 이는 암이 대체적으로 환경에서 기인한다는 것을 의미합니다”라고 설명했습니다.
무토그라프 프로젝트의 연구자들은 현재 식도암 관련 체세포 돌연변이를 연구하고 있습니다. 차나 마테차처럼 입을 델 정도로 뜨거운 음료의 음용과 식도암의 상관관계를 연구 결과들도 일부 존재하는데요.
식도암의 발병률은 북아메리카나 서아프리카보다 아메리카 동남부, 동아프리카, 중앙아시아에서 훨씬 높습니다. 발병 위험을 높이는 환경 또는 생활 습관과 관련한 요인을 찾으면 암의 예방과 조기발견에 도움이 됩니다.
무토그라프 연구진은 엔비디아 GPU를 활용해 SigProfiler AI 프레임워크 구동 환경을 가속화했습니다. 엔비디아 DGX 시스템 상에서 배정밀도 연산으로 파이프라인을 실행하자 CPU 하드웨어 대비 30배나 빠른 성능을 보였는데요. 알렉산드로프 교수에 따르면 단정밀도로 계산했을 때도 SigProfiler의 속도가 상당히 향상되어 50배 이상의 가속을 달성했다고 하네요.
엔비디아 DGX의 AI 최적화 소프트웨어와 NVLink의 상호 연결 기술 덕분에 엔비디아 V100 텐서 코어 GPU 전반에서 AI 모델의 스케일링(scaling)이 가능해져 모델 개발과 배포에서 최상의 퍼포먼스를 기대할 수 있습니다.
알렉산드로프 교수 팀은 암환자 20,000명 이상의 데이터 분석 결과를 올해 과학 학술지 ‘네이처(Nature)’에 게재했는데요, 이는 보통 한달이 걸리던 일이었습니다.
알렉산드로프 교수는 “엔비디아 DGX가 있으면 분석 일에 하루도 채 걸리지 않습니다. 이는 우리가 더 많은 테스트와 유효성 확인, 탐구에 매진할 수 있게 되었다는 의미이기도 하죠”라고 말했습니다.
엔비디아 헬스케어 뉴스를 구독하세요.
이미지 출처: 웰컴 생거 연구소(Wellcome Sanger Institute)