AI가 유전체학을 진화시키는 방법

전장 유전체 시퀀싱(염기서열 분석)의 발전은 디지털 생물학에 혁명을 일으키고 있습니다.

높은 처리량의 차세대 시퀀싱 비용이 낮아짐에 따라 전 세계의 유전체학 프로그램들이 탄력을 받고 있습니다.

희귀 질환을 가진 중환자의 시퀀싱에서 인구 규모의 유전학 연구까지, 전장 유전체 시퀀싱은 임상 워크플로우와 약물 발견의 기본이 되고 있습니다.

그러나 게놈 시퀀싱은 첫 번째 단계에 불과합니다. 게놈 시퀀싱 데이터를 분석하려면 게놈을 읽고 이해할 수 있는 가속화된 컴퓨팅, 데이터 과학과 AI가 필요합니다. 집적 회로의 트랜지스터 수가 2년마다 두 배로 증가한다는 무어의 법칙의 종말에 따라, 데이터 분석 비용을 낮추고 읽기 처리량과 정확도를 높이고, 궁극적으로 인간 염기서열의 완전한 잠재력을 실현하기 위한 새로운 컴퓨팅 접근법이 필요합니다.

생물정보학 데이터의 폭발적 증가

개인의 전장 유전체를 시퀀싱하면 약 100GB의 원시 데이터가 생성됩니다. 딥 러닝과 자연어 처리같이 복잡한 알고리즘과 애플리케이션을 사용하여 게놈을 시퀀싱한 후에는 데이터가 두 배 이상 증가하죠.

인간 게놈 시퀀싱 비용이 계속 감소함에 따라 시퀀싱 데이터의 양이 기하급수적으로 증가하고 있습니다.

2025년까지 모든 인간 게놈 데이터를 저장하는 데 약 40엑사바이트가 필요할 것으로 예상됩니다. 참고로 이는 역사상 사용된 모든 단어를 저장하는 데 필요한 것보다 8배 더 많은 저장 용량입니다.

따라서 많은 게놈 분석 파이프라인이 이렇게 방대한 수준의 원시 데이터를 따라잡는 데 어려움을 겪고 있습니다.

가속화된 게놈 시퀀싱 분석 워크플로우

시퀀싱 분석은 인간 게놈에서 유전적 변이를 식별하는 데 필요한 수많은 단계로 인해 복잡하고 계산 집약적입니다.

딥 러닝은 RNN 과 CNN(컨볼루션 신경망) 기반 모델을 사용하는 게놈 기기 내 베이스 콜링(base calling)에 중요해지고 있습니다. 신경망은 기기에서 생성된 이미지와 신호 데이터를 해석하고 인간 게놈의 30억 뉴클레오티드 쌍을 추론합니다. 이를 통해 판독 정확도가 향상되고 베이스 콜링이 실시간에 가깝게 발생하여, 샘플에서 변이 검출 형식, 최종 보고서까지의 전체 유전체학 워크플로우가 더욱 빨라집니다.

2차 게놈 분석의 경우, 정렬 기술은 참조 게놈을 사용하여 DNA 단편의 시퀀싱 후 게놈을 다시 연결하는 데 도움을 줍니다.

표준 정렬 알고리즘인 BWA-MEM은 연구자들이 DNA 서열 판독을 참조 게놈에 신속하게 매핑하도록 돕고 있습니다. STAR는 유전자 발현을 더 잘 이해하기 위해 정확한 초고속 정렬을 제공하는 RNA-seq 데이터에 사용되는 또 다른 표준 정렬 알고리즘입니다.

동적 프로그래밍 알고리즘인 Smith-Waterman도 정렬에 널리 사용되는데요. 동적 프로그래밍 가속기를 포함하는 NVIDIA H100 Tensor Core GPU에서 정렬이 35배 가속화됩니다.

유전적 변이 발견

시퀀싱 프로젝트의 가장 중요한 단계 중 하나는 연구자가 환자의 샘플과 참조 게놈 간의 차이점을 식별하는 변이 검출입니다. 이는 임상의가 중환자가 가질 수 있는 유전 질환이 무엇인지 판단할 때나 연구원이 새로운 약물 표적을 발견하기 위해 인구 전체를 살펴볼 때 도움이 됩니다. 이러한 변이는 단일 뉴클레오티드 변경, 작은 삽입이나 삭제 또는 복잡한 재배열일 수 있습니다.

생식계열 변이 검출을 위한 게놈 분석 툴킷인 브로드 인스티튜트(Broad Institute)의 GATK와 같은 GPU로 최적화, 가속화된 검출기는 분석 속도를 높입니다. 연구자들이 GATK 결과에서 오탐(false positive)을 제거할 수 있도록, NVIDIA는 브로드 인스티튜트와 협력하여 CNN을 사용해 변이를 필터링하는 딥 러닝 도구인 NVScoreVariants를 도입했습니다.

구글의 DeepVariant와 같은 딥러닝 기반 변이 검출기는 별도의 필터링 단계 없이 검출의 정확도를 높입니다. DeepVariant는 CNN 아키텍처를 사용하여 변이를 검출합니다. 각 게놈 플랫폼의 출력으로 정확도를 높이기 위해 미세 조정하도록 재훈련할 수 있습니다.

NVIDIA Clara Parabricks 도구 모음의 2차 분석 소프트웨어는 이러한 변이 검출기를 최대 80x까지 가속화했습니다. 예를 들어 생식계열 HaplotypeCaller의 런타임은 CPU 기반 환경에서 16시간이 소요되지만 GPU 로 가속화된 Clara Parabricks를 사용하면 5분 미만으로 단축됩니다.

유전체학의 차세대 진화 가속화

NVIDIA는 가속화된 AI 베이스 콜링과 변이 검출을 통해 숏리드(short-read)와 롱리드(long-read) 시퀀싱 플랫폼을 모두 지원하여 유전체학의 차세대 진화를 가속화하고 있습니다. 업계 선도기업과 스타트업들은 전장 유전체 시퀀싱의 한계를 뛰어넘기 위해 NVIDIA와 협력하고 있습니다.

예를 들어, 생명공학기업 팩바이오(PacBio)는 최근 NVIDIA Tensor Core GPU를 탑재한 새로운 롱리드 시퀀싱 시스템인 레비오(Revio)시스템을 발표했는데요. 이전 시스템 대비 컴퓨팅 성능이 20배 증가한 레비오는 1,000달러 미만의 대규모 롱리드 정확도로 인간 게놈을 시퀀싱하도록 설계됐습니다.

옥스포드 나노포어 테크놀로지스(Oxford Nanopore Technologies)는 모든 길이의 DNA나 RNA 단편을 실시간으로 시퀀싱할 수 있는 유일한 단일 기술을 제공합니다. 이러한 기능을 통해 더 많은 유전적 변이를 빠르게 발견할 수 있습니다. 시애틀 어린이 병원은 최근 신생아가 태어난 지 몇 시간 안에 유전적 장애를 판별하기 위해 고처리량 나노포어 시퀀싱 장비 PromethION을 사용했습니다.

얼티마 제노믹스(Ultima Genomics)는 샘플당 단 $100에 높은 처리량의 전장 유전체 시퀀싱을 제공하며, 싱귤러 제노믹스(Singular Genomics)의 G4는 가장 강력한 벤치탑 시스템입니다.