세계 기록적 DNA 분석 기술을 제공하는 NVIDIA Clara Parabricks

스탠퍼드대 의과대학이 주도하는 이니셔티브가 NVIDIA Clara, 구글 딥베리언트(Google DeepVariant), 옥스퍼드 나노포어 테크놀로지(Oxford Nanopore Technologies) 염기서열 분석(sequencing)을 통해 7시간 반 만에 유전질환을 파악할 수 있게 됐습니다
by NVIDIA Korea

환자의 게놈 전체 염기서열 분석에 필요한 시간을 며칠에서 몇 시간으로 단축하는 것은 임상 효율성 향상을 넘어 생명 구조에까지 영향을 미칩니다.

스탠퍼드 대학교의 한 연구팀은 혈액 샘플 채취부터 질병 관련 변종 확인을 위한 전체 게놈 염기서열 분석에 이르는 과정의 모든 단계를 가속화했습니다. 이로써, 단 몇 시간만에 희귀 발작을 유발하는 유전적 장애가 있는 생후 3개월 된 영아의 병원성 변이를 찾아내고 최종 진단을 내렸죠. 이와 동시에 시작한 기존 유전자 패널 분석은 결과를 내놓는 데 2주가 소요됐습니다.

뉴잉글랜드 의학 저널(New England Journal of Medicine)에 자세히 소개된 이 초고속 염기서열 분석 방법은 신생아의 발작 유형과 항발작 약물에 대한 치료 반응에 관한 인사이트를 제공해 임상의가 뇌전증 케이스를 다루는 데 도움을 줬습니다.

해당 방법은 가장 빠른 DNA 염기서열 분석 기술로 5시간 2분이라는 시간이라는 기네스 세계 기록을 세웠죠. 이는 스탠퍼드 대학교, NVIDIA, 옥스퍼드 나노포어 테크놀로지, 구글, 베일러 의과대학, 캘리포니아 대학교 산타크루즈의 연구원들에 의해 개발됐습니다.

연구진은 구글 클라우드의 NVIDIA GPU를 이용해 기본 콜링(base calling)과 변이 콜링(variant calling)을 모두 가속화했습니다. 게놈에서 수백만 개의 변이를 식별하는 과정인 변이 콜링(variant calling)도 컴퓨터 유전체학 애플리케이션 프레임워크인 NVIDIA Clara Parabricks를 통해 가속화됐죠.

이 논문의 교신 저자이자 스탠퍼드대 의과대학 의학과, 유전학과, 생물의학 데이터 사이언스 교수를 역임하고 있는 유안 애슐리(Euan Ashley) 박사(MB ChB, DPhil)는 오는 3월 21일부터 24일까지 온라인으로 진행되는 NVIDIA GTC에서 강연할 예정입니다.

시간과의 전쟁 속 임상 효과 내기

특정 질병과 관련된 유전적 변이를 식별하는 것은 모래사장에서 바늘 찾기 같은 문제로, 연구자들은 질병을 유발하는 하나의 변화를 찾기 위해 30억 염기쌍의 게놈을 샅샅이 조사해야 합니다.

이는 기나긴 과정으로, 일반적인 전체 인간 게놈 염기서열 분석 검사는 6주에서 8주가 걸리는데요. 심지어 급속 턴어라운드 테스트(turnaround test)도 2~3일이 걸리죠. 이는 대부분 중환자 치료에 차이를 만들기에는 너무 느립니다.

진단 파이프라인을 7-10시간으로 최적화함으로써 임상의는 환자 치료 계획에 활용할 수 있는 유전적 단서를 보다 신속하게 식별할 수 있습니다. 이번 시범 프로젝트에서는 스탠퍼드 헬스케어(Stanford Health Care)와 루실 패커드 아동 병원 스탠퍼드(Lucile Packard Children’s Hospital Stanford)에서 환자 12명의 게놈 염기서열을 분석했으며, 이 중 대부분은 어린이 환자였습니다.

연구팀은 5건의 사례에서 의사가 검토하고 심장 이식과 약물 처방을 포함한 임상 결정을 알리는 데 활용되는 진단 변이체를 발견했습니다.

옥스퍼드 나노포어 테크놀로지의 CEO 고든 생게라(Gordon Sanghera)는 “유전체 정보는 풍부한 통찰력을 제공하고 더 명확한 그림을 구축할 수 있도록 합니다. 이 정보를 거의 실시간으로 전달할 수 있는 워크플로를 통해, 정보에 대한 신속한 액세스가 중요한 다양한 환경에서 의미 있는 이점을 제공할 수 있습니다”라고 말했습니다.

AI 판별: NVIDIA Clara Parabricks로 변이 식별하기

연구진은 샘플 준비 속도를 높이고 옥스퍼드 나노포어의 프로메티온 플로 셀(PromethION Flow Cells)에서 나노포어 염기서열 분석을 통해, 시간당 100기가베이스 이상의 데이터를 생성하는 것을 포함해 파이프라인의 모든 단계를 최적화하는 방법을 발견했습니다.

이 염기서열 분석 데이터는 기기의 원시 신호를 A, T, G, C 뉴클레오티드 문자열로 바꾸는 프로세스인 기본 콜링(base calling)과 정렬을 위해, 거의 실시간으로 구글 클라우드 컴퓨팅 환경에서 NVIDIA Tensor Core GPU로 전송됩니다. 클라우드 GPU 인스턴스에 데이터를 분산하면 지연 시간을 최소화할 수 있습니다.

다음으로 과학자들은 유전적 장애를 일으킬 수 있는 DNA 서열 속 작은 변이를 찾아야 했습니다. 변이 콜링(variant calling)으로 알려진 이 단계는 구글과 UC 산타크루즈의 컴퓨터 유전체학 연구소의 협업으로 개발된 파이프라인 페퍼 마진 딥베리언트(PEPPER-Margin-DeepVariant)의 GPU 가속 버전을 사용해 Clara Parabricks로 속도를 높였습니다.

딥베리언트(DeepVariant)는 매우 정확한 변이 콜링(variant calling)을 위해 합성곱 신경망(convolutional neural networks)을 사용합니다. Clara Parabricks의 GPU 가속 딥베리언트 생식세포 파이프라인(DeepVariant Germline Pipeline) 소프트웨어는 기본 딥베리언트 인스턴스의 10배 속도로 결과를 제공해 질병을 유발하는 변이체를 식별하는 시간을 단축합니다.

Parabricks 제작을 공동으로 이끌고 뉴잉글랜드 의학 저널 기사를 공동 집필한 NVIDIA 메르자드 사마디(Mehrzad Samadi)는 “우리의 협력자와 유전체학 분야의 선두주자들과 함께 우리는 이미 실질적으로 임상적 이점을 보여준 신속한 염기서열 분석 워크플로를 개발할 수 있었습니다. 이러한 큰 영향력을 가진 문제들을 해결하기 위해 우리가 존재합니다”라고 말했습니다.

뉴잉글랜드 의학 저널의 전체 간행물은 여기서 확인할 수 있습니다. 그리고 30분 안에 인간 게놈 전체를 분석할 수 있는 NVIDIA Clara Parabricks의 90일 평가판을 여기서 사용해 볼 수 있습니다.

여기에서 NVIDIA 헬스케어 뉴스를 구독하세요.