일상에서 만나는 AI, 화상회의용 딥 러닝 모델 공개

NVIDIA는 국제 컴퓨터 비전 컨퍼런스인 CVPR(Computer Vision and Pattern Recognition) 2021에서 화상회의용 딥 러닝 모델 ‘Vid2Vid Cameo’를 공개했습니다.

클라우드 네이티브 AI 동영상 스트리밍 플랫폼인 NVIDIA Maxine SDK 기반의 Vid2Vid Cameo는 생성적 적대 신경망(GAN)을 통해 사용자의 2D 이미지만으로 참여자가 실제 말하는 것과 같은 토킹헤드(taking-head) 합성 영상을 생성합니다. 이로써, 사용자는 언제 어디서나 증명사진과 같은 완벽한 모습으로 화상회의에 참여할 수 있게 됐습니다.

Vid2Vid Cameo를 통해 화상회의에 참여하기에 앞서 사용자는 자신의 사진이나 캐릭터 아바타와 같은 참조 이미지를 제출해야 합니다. 이후, 화상회의를 시작하면 AI 모델이 사용자의 움직임을 실시간으로 포착해 기존에 제출한 참조 이미지에 적용합니다.

예를 들어 사용자가 정장을 입은 사진을 업로드하면, 실제로 옷을 갖춰 입지 않더라도 화면에는 정장을 입은 모습으로 보이게 됩니다. 이는 AI가 사용자의 얼굴 움직임을 기존에 제출한 사진에 매핑했기 때문이죠. 참여자가 얼굴을 왼쪽으로 돌려도 AI가 시선 처리를 해주기 때문에 시선은 웹캠을 정면으로 마주하는 모습으로 보입니다.

해당 AI 기술은 회의 참석자의 용모를 단정하게 하는 것 외에도, 기존 화상회의에 필요한 대역폭을 최대 10배까지 줄여 지터(jitter)와 랙(lag) 현상을 방지합니다. 해당 기술은 곧 NVIDIA Video Codec SDK에서 AI Face Codec 형식으로 제공될 예정입니다.

프로젝트의 공동 저자 겸 NVIDIA 연구원인 류밍유(Ming-Yu Liu)는 “많은 사람들이 제한된 인터넷 대역폭을 사용하지만, 여전히 친구나 가족들과의 원활한 화상 통화를 원합니다. 이 기술은 그런 이들을 도울 뿐만 아니라 애니메이션 제작자, 사진 편집자와 게임 개발자들의 다양한 작업에도 사용될 수 있습니다”라고 설명했습니다.

Vid2Vid Cameo는 이번 주 개최된 온라인 학술대회 CVPR 2021에서 NVIDIA의 28개 논문 중 하나로 발표됐으며, AI Playground에서 누구나 리서치 데모를 직접 체험할 수 있습니다.

AI를 적용해 다양한 기능 제공

Vid2Vid Cameo는 얼굴 방향 전환 기능, 애니메이션 아바타, 데이터 압축 기능 등을 핵심으로 합니다. 이러한 기능들은 NVIDIA Maxine SDK에 곧 도입될 예정입니다. NVIDIA Maxine SDK는 화상회의와 라이브 스트리밍의 비디오, 오디오, 증강현실 효과를 위해 최적화된 사전교육 모델을 개발자들에게 제공하는 플랫폼입니다.

현재 이용 가능한 Maxine AI 효과는 지능형 소음 제거, 비디오 업스케일링과 신체 포즈 예측을 비롯해 다양하게 제공됩니다. 무료로 다운로드 가능한 SDK는 녹음이나 번역 애플리케이션 등의 대화식 AI 애플리케이션을 위한 NVIDIA Riva 플랫폼과 함께 사용 가능합니다.

Vid2Vid Cameo를 훈련하는 AI 기술 GAN

Vid2Vid Cameo를 통해 화상회의에 사용되는 사실적인 AI 토킹헤드(taking head)를 만들려면 인물을 찍은 사진과 함께 사진 속 인물이 움직이는 방식을 보여주는 스트리밍 영상이 필요합니다.

NVIDIA DGX 시스템에서 개발된 Vid2Vid Cameo는 18만 개의 고품질 토킹헤드 영상 데이터 세트에 기반해 훈련됐습니다. 훈련을 거친 GAN은 별도의 설명 없이도 얼굴의 움직임을 모델링하는 데 필요한 20개의 중심 포인트(point)를 식별하는 방법을 학습하죠. 각 포인트는 눈, 코, 입 등의 특징적인 위치를 인코딩합니다.

이후, 해당 모델은 회의 참여자가 업로드한 참조 이미지에서 중심 포인트를 추출하고, 이를 다른 회의 참여자에게 미리 보내거나 이전 화상회의에서 사용했던 포인트를 재사용할 수도 있습니다. 이를 통해 화상회의 플랫폼은 대용량의 라이브 비디오 스트림을 전송할 필요 없이 단순히 화자의 얼굴에 적용된 중점포인트의 움직임과 관련된 데이터만 전송하면 됩니다.

데이터 수신자 측의 GAN 모델은 이 정보를 사용해 화상회의의 영상을 합성하고 참조 이미지와 거의 똑같은 모습을 만듭니다.

이 기술은 비디오스트림 전체를 주고받을 필요없이, 사용자의 머리 위치와 얼굴의 중심포인트로 간소화된 데이터를 서로 주고받음으로써 화상회의에 필요한 대역폭을 10배까지 줄여 줍니다. 따라서 보다 원활한 사용자 환경을 제공할 수 있습니다. GAN 모델은 시각적 퀄리티의 저하 없이 다양한 대역폭 환경에 적응하기 위해, 중요포인트 개수를 조정하여 전송할 수도 있습니다.

또한, 영상 속 토킹헤드의 시선을 자유자재로 조정해 사용자의 모습을 측면이나 정면으로 보여줄 수 있으며, 높거나 낮은 카메라 각도 처리도 가능합니다. 이 기능은 정지된 이미지를 작업하는 사진 편집기에 사용될 수도 있습니다.

NVIDIA 연구원들은 Vid2Vid Cameo가 더욱 사실적이고 생생하며 정확한 이미지를 생성하는 점에서 다른 첨단 신경망 모델보다 월등히 뛰어나다고 평가했습니다. 특히, 참조 이미지와 영상 속 인물을 동일한 인물로 분간하는 기술과 사용자의 동작 데이터를 상대방의 참조 이미지에 전송하는 등 AI의 기술적 측면에서 우수함을 강조했습니다.

동작 데이터를 전송하는 기능을 통해 화자의 얼굴 움직임은 화상회의 속 디지털 아바타(digital avatar)를 애니메이션화 하도록 적용될 수 있으며, 비디오 게임과 만화 캐릭터에 더욱 사실적인 얼굴 표정과 움직임을 덧입히도록 적용될 수 있습니다.

Vid2Vid Cameo에 대한 논문은 NVIDIA 연구원 왕팅춘(Ting-Chun Wang), 아룬 맬리아(Arun Mallya), 류밍유(Ming-Yu Liu)가 공동 집필했습니다. NVIDIA 연구팀은 AI, 컴퓨터 비전, 자율주행 자동차, 로보틱스, 그래픽 등의 분야를 중심으로 하는 전 세계 200여 명의 과학자로 구성되어 있습니다.