NVIDIA 연구팀, 시그라프 2021에서 디지털 아바타로 최고상 수상

NVIDIA 연구팀이 시그라프 2021 실시간 라이브 쇼케이스에서 4개의 AI 모델로 구성된 디지털 아바타 테크놀로지 데모로 최고상(Best in Show)을 수상했습니다.

이번 쇼케이스는 올해 가상으로 개최된 세계 최대 컴퓨터 그래픽 컨퍼런스인 시그라프 2021 중에서도 가장 큰 기대를 모은 행사인데요. 게임 테크놀로지와 증강 현실(AR), 과학적 시각화 부문의 최첨단 실시간 프로젝트를 기리는 시간으로 꾸며졌습니다. 심사위원단의 평가를 거친 인터랙티브 프로젝트들의 소개와 함께 유니티 테크놀로지스(Unity Technologies)와 렌셀러폴리테크닉대학교(Rensselaer Polytechnic Institute), 뉴욕대학교 미래현실연구소(NYU Future Reality Lab) 소속 전문가들이 발표자로 참여했죠.

실리콘 밸리의 NVIDIA 본사에서 생중계로 발표를 진행한 NVIDIA 연구팀은 대역폭 효율적인 화상 회의와 스토리텔링 등의 프로젝트에서 실물과 똑같은 가상 캐릭터를 생성하는 AI 모델 컬렉션을 선보였습니다.

사진 한 장으로 생성한 아바타에 3D 얼굴 모션을 입혀 살아 움직이게 하고 텍스트를 음성으로 변환하는 툴들을 데모로 소개한 것인데요.

브라이언 카탄자로(Bryan Catanzaro) NVIDIA 응용 딥 러닝 연구 부문 부사장은 이번 발표에서 “디지털 아바타의 구축은 힘들고 지루하며 비용이 많이 드는 작업으로 악명 높습니다”라고 말했습니다. 그러나 AI 툴을 사용하면 얘기가 달라집니다. “실제 인물과 만화 캐릭터의 디지털 아바타를 손쉽게 생성할 수 있습니다. 화상 회의, 스토리텔링, 가상 어시스턴트를 비롯해 기타 여러 애플리케이션에도 활용이 가능합니다.”

면접의 고수 AI

이번 데모에서 NVIDIA 소속 과학자 2인은 면접 담당자와 입사 지원자로 역할을 나눠 화상 회의 형태로 대화를 진행했는데요. 이 과정에서 지원자는 AI 기반 디지털 아바타 테크놀로지의 여러 기능들을 뽐내며 면접관과 소통했습니다.

지원자 역할을 맡은 연구자는 회의 내내 NVIDIA RTX 노트북을 사용했고 면접관 역할의 연구자는 RTX A6000 GPU 기반 데스크탑 워크스테이션을 활용했습니다. 전체 파이프라인은 클라우드의 GPU에서도 실행 가능합니다.

캠퍼스 카페에 앉은 입사 지원자는 야구모자와 마스크 차림이었지만 Vid2Vid Cameo 모델을 써서 회의 영상에는 셔츠를 입고 말끔히 면도한 모습으로 등장했습니다(위 사진 참조). Vid2Vid Cameo는 사진 한 장으로 사실적인 디지털 아바타를 생성합니다. 이 과정에서 3D 스캔이나 전문화된 훈련용 이미지는 필요치 않죠.

지원자 역할의 연구자는 “디지털 아바타가 즉각적으로 생성된다는 점을 활용해 서로 다른 사진으로 서로 다른 아바타를 신속히 만들 수 있습니다”라고 설명하면서 자신의 다른 두 이미지들로 아바타를 생성하는 기능을 시연했습니다.

이때 연구자의 시스템은 비디오 스트림 대신 그의 목소리만을 전송했습니다. 그리고 이를 NVIDIA Omniverse Audio2Face 애플리케이션에 입력했죠. Audio2Face는 특정한 3D 헤드 모델에서 음성 입력값과 자연스럽게 일치하는 머리와 눈, 입술의 움직임을 실시간으로 생성합니다. 이 얼굴 애니메이션을 Vid2Vid Cameo로 보내 발표자의 디지털 아바타와 자연스럽게 어울리는 움직임을 합성하는 방식입니다.

또한 연구자는 자신의 음성을 Audio2Face와 Vid2Vid Cameo에 입력하여 포토리얼리스틱 디지털 아바타뿐만 아니라 애니메이션 캐릭터에도 목소리를 입혔습니다. 그의 설명에 따르면 NVIDIA StyleGAN을 활용해 만화 캐릭터나 그림을 모델로 하는 인피니트 디지털 아바타(infinite digital avatar)를 만들 수 있습니다.

NVIDIA RTX GPU에 최적화된 이 모델들은 초당 30프레임으로 매끄러운 영상을 제공합니다. 또한 발표자의 시스템이 고해상도의 비디오 피드를 내보내는 대신 네트워크를 통해 오디오 데이터만을 전송하므로 대역폭의 효율성이 아주 높습니다.

여기에서 한 단계 더 나아가 지원자 역할의 연구자는 카페의 주변 소음이 심해지자 메시지를 텍스트로 입력한 뒤 RAD-TTS 모델을 사용해 자신의 목소리로 전환하는 방법을 시연했습니다. Audio2Face에 입력되는 오디오를 텍스트가 대신하는 셈이죠. 이 혁신적인 딥 러닝 기반의 문자 음성 변환 툴은 임의의 텍스트 입력값을 바탕으로 실제와 같은 음성을 순식간에 합성할 수 있습니다.

NVIDIA 연구팀이 이번 데모의 대미에서 보여주었듯, RAD-TTS의 다양한 목소리 합성 기능을 활용하면 소설 속 등장인물이 살아 움직이게 하거나 더 나아가 에미넴의 “The Real Slim Shady” 같은 랩 음악도 할 수 있습니다.

8월 13일까지 진행되는 시그라프 2021에서 NVIDIA가 참여한 행사의 전체 라인업을 확인하세요. 8월 11일에 공개된 NVIDIA 다큐멘터리 “NVIDIA GTC 2021 – Metaverse에서 연결하기”도 놓치지 마세요.