미국 플로리다 대학(University of Florida)의 학술 의료 센터인 플로리다 대학병원(UF Health)은 NVIDIA와 협력해 합성 임상 데이터를 생성하는 신경 네트워크를 개발했습니다. 이 신경 네트워크는 연구자들이 의료 분야에서 다른 AI 모델을 훈련하는 데 사용할 수 있는 강력한 리소스가 될 것입니다.
SynGatorTron은 200만 명 이상의 환자에 대한 10년 간의 데이터를 기반으로 훈련됐으며, 학습한 건강 기록을 모방한 합성 환자 프로필을 작성할 수 있는 언어 모델인데요. 50억 매개 변수에 기반한 언어 모델은 헬스케어 분야에서 가장 큰 언어 생성기가 되죠.
UF 임상전환과학연구소(UF Clinical and Translational Science Institute)의 부소장 겸 연구부소장인 두안 미쉘 박사(Dr. Duane Mitchell)는 “합성 데이터는 실제 사람과 연결되어 있지 않아도 실제 환자와 유사한 특징을 가지고 있습니다. 예를 들어 SynGatorTron은 실제 환자 집단과 동일한 특성을 가진 디지털 당뇨병 환자의 건강 기록을 만들 수 있습니다”라고 말합니다.
연구자는 이 합성 데이터를 사용해 리스크나 사생활 침해에 대한 우려 없이도 도구와 모델, 작업을 만들 수 있습니다. 그런 다음 이런 정보를 실제 데이터에 사용해 임상적 질문을 하고, 연관성을 찾고, 심지어 환자 결과도 탐색할 수 있죠.
또한 합성 데이터를 사용하면 여러 연구 기관 간에 쉽게 협업하고 모델을 공유할 수 있습니다. 합성할 수 있는 데이터의 양은 사실상 무한하기 때문에 연구자들은 SynGatorTron에서 생성한 데이터를 사용해 희귀병 환자나 소수 집단에 대한 소규모 데이터 세트를 증가시켜 모델 편향을 감소시킬 수 있습니다.
SynGatorTron은 오픈 소스 NVIDIA Megatron-LM과 NeMo 프레임워크를 통해 개발됐는데요. 작년 NVIDIA GTC에서 발표된 UF Health의 GatorTron 모델을 기반으로 했죠. 이 모델은 세계 30대 슈퍼컴퓨터 랭킹에 드는 플로리다 대학의 자체 내 NVIDIA DGX SuperPOD인 HiPerGator-AI에서 훈련됐습니다.
SynGatorTron에서 생성된 합성 데이터에서 훈련을 받은 BERT 식의 변압기 모델인 GatorTron-S는 다음 달 NGC 소프트웨어 허브에서 개발자들에게 제공될 예정입니다.
강력한 훈련 데이터를 제공하는 SynGatorTron
의사에게는 AI로 생성된 의사 소견서가 언뜻 보기에 비현실적으로 보일 수 있습니다. 의료 전문의의 눈에는 이것이 실제 환자를 대변하는 것이 아니어서 논리적으로 해석되지 않겠죠. 그래서 임상의는 그것을 통해 직접 분석이나 진단을 내릴 수 없습니다. 하지만 비훈련된 AI에게는 실제 데이터와 합성 임상 데이터 두개 모두 매우 가치 있게 쓰입니다.
NVIDIA의 글로벌 의료 AI 책임자인 모나 플로레스(Mona Flores) 박사는 “SynGatorTron의 생성력은 의학용 자연어 처리를 가능하게 합니다. 다양한 유형의 임상 기록을 합성해 데이터의 희소성과 프라이버시에 대처함으로써 이런 데이터에 의존하는 모든 종류의 애플리케이션을 만들 수 있는 능력을 대중화할 수 있을 것입니다”라고 말했습니다.
플로리다 대학병원 이외의 연구기관은 사전 훈련된 SynGatorTron 모델을 현지화된 데이터로 미세 조정하여 AI 프로젝트에 적용할 수 있습니다. 예를 들어, 특정 조건이나 환자 집단이 의료 시스템의 임상 데이터에서 충분히 대변되지 않는 경우, SynGatorTron은 곧바로 해당 질병이나 모집단의 특성을 가진 추가 데이터를 생성할 수 있게 하죠.
그런 다음 이런 AI 생성 기록들은 다른 신경 네트워크를 훈련하는 데 쓰이는 실제 의료 데이터 세트를 보완하고 균형을 맞추어 주기 때문에 모집단을 더 잘 표현할 수 있습니다.
합성 훈련 데이터 세트는 특정 환자와 직접 연결되지 않고도 실제 의료 기록을 모방할 수 있어서 개인 정보 보호에 대한 우려 없이 연구 기관 간에 쉽게 공유할 수도 있죠.
미셸 박사는 “실제 환자와 직접 연결되지 않고도 모집단의 특성을 모방할 수 있는 능력을 갖춘다면, 데이터에의 액세스 제약이나 해당 환자에 관한 정보에 대한 제한때문에 답할 수 없었던 현실적인 데이터 세트를 생성할 수 있는 기회가 열립니다”라고 말합니다.
애플리케이션 하나가 현재 임상 시험 중에 있습니다. 바로 환자를 치료군과 대조군으로 나누어 신약 효과를 측정하는 임상 시험이죠. SynGatorTron에서 생성된 데이터에서 파생된 애플리케이션은 실제 기록을 구문 분석해 환자 기록을 디지털 트윈으로 만들 수 있습니다. 그런 다음 이런 기록들은 실제 환자에게 위약 치료를 제공하는 식의 대조군을 만들지 않아도 임상 시험에서 대조군으로 사용될 수 있습니다.
또한 희귀 질환이나 특정 모집단에 대한 치료 효과를 연구하기 위해 딥 러닝 모델을 개발하는 연구자도 데이터를 늘리는 데 SynGatorTron을 사용할 수 있으며, 이용 가능한 실제 의료 기록을 보완하기 위해 더 많은 훈련 데이터를 생성할 수 있습니다.
GTC에서 만나는 헬스케어
지난 3월 21일부터 24일까지 온라인 열린 GTC에 무료로 등록하고, AI 와 의료 분야의 최신 정보가 담긴 세션들을 다시보기로 시청해보세요. “차세대 임상 언어 모델(A Next-Generation Clinical Language Model)” 세션에서 SynGatorTron 공동 작업자들의 설명도 다시보기로 확인해보세요.
NVIDIA 설립자 겸 CEO인 젠슨 황(Jensen Huang)의 키노트는 다음 영상에서 확인하실 수 있습니다.