NVIDIA Clara Parabricks로 실현하는 생물학 혁명

전세계 과학자들이 NVIDIA Clara Parabricks와 고성능 컴퓨팅 시스템으로 유전체 데이터를 연구하고 있습니다
by NVIDIA Korea

한때 과학자와 의료 연구자들은 웨트 랩(wet lab, 시료나 장비를 이용해 실제 상황에서 실험을 진행하는 공간)에서 연구할 샘플의 수가 부족하거나 세포를 면밀히 들여다보게 해줄 현미경의 성능 문제로 어려움을 겪었습니다. 그러나 이제는 강력한 컴퓨팅 도구를 활용해 양적인 팽창을 거듭하는 생물학적 데이터에서 인사이트를 도출하고 있죠.

이 같은 디지털 생물학 혁명을 뒷받침하는 것이 바로 고성능 컴퓨팅 시스템과 영역별로 특화된 소프트웨어 프레임워크입니다.

지난 6월에 발표된 ‘세계에서 가장 강력한 슈퍼컴퓨터 상위 500위’에는 NVIDIA의 헬스케어용 시스템인 Cambridge-1과 생명 공학 기업 리커션(Recursion)의 바이오하이브-1(BioHive-1)이 포함된 바 있는데요. 두 슈퍼컴퓨터 모두 NVIDIA DGX SuperPOD 레퍼런스 아키텍처를 기반으로 합니다.

또한 전세계의 여러 의료 연구 기관과 제약 회사, 생명 공학 스타트업들이 유전체학 라이브러리와 레퍼런스 애플리케이션을 제공하는 NVIDIA Clara Parabricks을 사용하여 차세대 시퀀싱(sequencing) 워크플로우를 지원하고 있습니다.

상하이에 본사를 둔 밍마 바이오테크놀로지(Mingma Biotechnology)는 6월에 연구소로는 중국 최초로 Clara Parabricks Pipelines를 통해 정밀 의학 부문의 자체 연구를 지원하기 시작했습니다. 이에 앞서 태국과 일본에서는 올해 대규모의 유전체학 이니셔티브가 발표되기도 했죠. 또한 유전자 치료 스타트업인 그레펙스(Greffex)는 최근 Parabricks Pipelines를 도입하여 범용 인플루엔자 백신 개발 프로젝트를 가속하고 있습니다.

인구 집단의 유전체 연구에서 인사이트 도출하기

Parabricks Pipelines는 NVIDIA GPU로 구동되는 DNA와 RNA 기반 프로젝트의 속도를 최대 50배까지 높여줍니다. 이에 따라 과학자들은 매일같이 생성되는 수백 테라바이트 분량의 계측 데이터에서 유용한 정보를 최대한 많이 추출할 수 있죠. 이러한 가속화는 수만 개의 유전체를 분석해야 하는 인구 집단 연구를 진행 중인 공공 보건 기관과 연구소에서 특히 강력한 효과를 발휘합니다.

밍마 바이오테크놀로지는 시퀀싱과 다중 오믹스(multi-omics) 데이터 분석 작업의 가속화를 위해 Parabricks Pipelines와 NVIDIA T4 Tensor Core GPU를 채택했습니다. 이 기업은 의료 기관과 제약 회사, 연구자들에게 질병 연구와 신약 개발을 위한 유전체 관련 인사이트를 제공합니다.

태국 국립 바이오뱅크(National Biobank of Thailand)는 유전체 의학을 보편적 의료 서비스의 일환으로 도입하고자 추진 중인 ‘게노믹스 타일랜드(Genomics Thailand)’ 이니셔티브에 NVIDIA DGX A100 시스템을 활용합니다. 또한 Parabricks Pipelines를 사용하여 태국인 지원자 50,000명의 전체 유전체 시퀀싱 데이터에서 유전자 변이를 분석합니다.

DGX 시스템과 Parabricks Pipelines의 결합은 전체 유전체 데이터의 처리에 소요되는 기간을 4개월까지 단축시켰습니다. 이 연구에서 확보한 인사이트는 태국인에게 특징적으로 나타나는 유전자 변이의 분석 개선에 기여할 전망입니다.

일본 도쿄대학교(University of Tokyo)의 인간 게놈 센터(Human Genome Center)는 최근 일본에서 가장 빠른 생명 과학용 슈퍼컴퓨터인 시로카네(SHIROKANE)를 선보였습니다. DGX A100 기반 시스템으로 Parabricks Pipelines를 구동해 92,000명에 달하는 환자의 전체 유전체를 시퀀싱하고, 암과 난치성 질환을 치료하는 정밀 의학의 토대가 될 데이터세트를 구축합니다.

임상 목적의 시퀀싱과 신약 개발 지원

Parabricks Pipelines의 유전자 툴들은 개별 실험실의 구체적 요구에 맞춰 구성이 가능합니다. Parabricks Pipelines 워크로드는 데스크톱 워크스테이션에서 GPU 가속 클라우드와 세계에서 가장 빠른 슈퍼컴퓨터들에 이르기까지, 다양한 NVIDIA GPU 시스템에서 실행됩니다.

그레펙스는 NVIDIA RTX data science workstation을 도입한 지 수주일 만에 Parabricks Pipelines와 NVIDIA Clara Discovery에 힘입어 범용 인플루엔자 백신의 개발에 진전을 이룩했습니다.

미국 휴스턴에 본사를 둔 이 스타트업은 유전체 시퀀싱과 분자역학용 툴, 웨트 랩 연구를 병행하여, 시간의 흐름에 따른 변종 인플루엔자의 진화와 이러한 돌연변이가 백신의 효능에 미치는 영향을 분석합니다.

인플루엔자의 변화를 모니터링하기 위해 그레펙스는 전세계에서 수만 개의 인플루엔자 유전체를 수집하고, NVIDIA RTX 8000 GPU로 방대한 수준의 서열 정렬(sequence alignment)을 진행하여 해당 바이러스의 유전자 코드가 변화하는 지점을 파악합니다. 유전체 워크로드를 GPU에서 실행함으로써, 샘플당 최대 13시간을 절약하는 한편 샘플들을 다른 파라미터로 재실행하여 서열 정렬 결과를 미세 조정합니다.

그레펙스는 집약적인 컴퓨팅을 통해 인플루엔자 바이러스의 표면 단백질인 헤마글루티닌(Hemagglutinin)의 분자역학 시뮬레이션을 진행하고 자연 상태에서의 작용 양상을 파악하고자 합니다.

일단 유전자 변이가 확인되면, 그레펙스의 과학자들은 유전자상의 변화가 인플루엔자 바이러스의 물리적 형태를 바꾸는 방식을 분자역학으로 시각화합니다. 현재는 백신으로 형성된 항체와 인플루엔자 바이러스의 결합을 가로막는 형태상 변화일 가능성이 있는 발산형 돌연변이(divergent mutation)를 연구 중입니다.

그레펙스의 바이오정보과학자인 대니얼 프레스턴(Daniel Preston)은 “현재 파악된 변종 인플루엔자뿐 아니라 다른 변종들과도 결합하는 백신을 만들기 위해 단백질 구조를 최적화하는 작업에는 막대한 시간과 비용이 소요됩니다”라고 말했습니다. “컴퓨팅 기법을 사용하면 성공 가능성이 높은 대상을 어느 정도 파악한 다음 실제 실험실에서 검증을 진행할 수 있습니다. 망치 대신 외과용 메스를 쓰듯 보다 정교한 접근이 가능해지는 셈입니다.”

NVIDIA Clara Parabricks

NVIDIA Clara Parabricks는 업계의 표준에 해당하는 브로드 연구소(Broad Institute)의 유전체 분석 툴킷(Genome Analysis Toolkit)을 비롯하여, 구글의 딥베리언트(DeepVariant) 변이 검출기처럼 널리 사용되는 툴을 GPU로 가속합니다. 인간 생식세포 변이의 검출을 위한 전체 유전체의 2차 분석 시에 CPU 시스템을 사용하면 20시간 이상이 걸리지만 Parabricks를 NVIDIA A100 Tensor Core GPU로 구동하면 23분만에 작업을 완료할 수 있습니다.

Clara Parabricks Pipelines는 DNA 염기서열의 조각을 의미하는 리드(read)를 시작으로 변이체들을 정렬, 구분, 필터링, 검출하여 생식세포 변이와 체세포 변이를 감지할 뿐 아니라 RNA 기반 애플리케이션도 지원합니다. 생식세포 변이는 혈통 내에서 유전되는 반면, 체세포 변이는 개인의 세포에서 일생동안 진행되며 암으로 이어질 수 있습니다.

출시를 앞둔 Parabricks Pipelines 버전 3.6에는 체세포 변이 검출을 위한 툴들이 더 추가되어 정밀종양학을 위한 인사이트 확보에 기여할 전망입니다. 또한 드노보 생식세포 변이(부모의 DNA에서 유전되지 않았으나 자녀에게 나타나는 돌연변이) 검출용 툴도 추가되어 자폐증 등의 복잡한 질병 연구에 활용될 예정입니다.

드노보 생식세포 변이 검출 파이프라인은  워싱턴의과대학(Washington University School of Medicine) 소속 연구자들과 협력 하에 개발됐습니다. 이 기법은 유전체 데이터를 분석하고, 하나의 혈통 또는 부모/자녀의 3인 내에서 발생한 신규 변이체를 파악하는 데 걸리는 시간을 1시간 미만으로 단축합니다.

NGC 또는 아마존 웹 서비스 마켓플레이스(AWS Marketplace)에서 NVIDIA Clara Parabricks Pipelines를 다운로드하고 유전체 분석의 속도를 높이세요.

메인 이미지는 H1 헤마글루티닌 단백질 17개가 시뮬레이션에 따라 항체와 결합한 후 102년간의 구조적 정렬을 보여줍니다. 채색된 부분은 헤마글루티닌에 발생한 서로 다른 종류의 돌연변이를 의미합니다. 이미지 제공: 그레펙스(RCSB Protein Data Bank의 모델을 사용했습니다.)