베일 벗은 클라우드 기반 AI 동영상 스트리밍 플랫폼 ‘NVIDIA Maxine’

동영상, 음성, 대화형 AI 기능이 통합된 새로운 동영상 스트리밍 플랫폼 엔비디아 Maxine은 오늘날의 화상회의 환경을 바꿔 놓을 전망입니다
by NVIDIA Korea

엔비디아가 클라우드 네이티브 인공지능(AI) 동영상 스트리밍 플랫폼인 엔비디아 Maxine을 공개했습니다. 엔비디아 Maxine은 개발자들이 클라우드 기반의 GPU 가속 AI 화상회의 소프트웨어를 활용해 인터넷 트래픽의 가장 많은 부분을 차지하는 동영상 스트리밍 품질을 향상합니다.

클라우드 네이티브 AI 동영상 스트리밍 플랫폼인 엔비디아 Maxine은 매일 3000만 건 이상이 진행되는 것으로 추산되는 웹 회의에 새로운 AI 기능을 제공합니다. 화상회의 서비스 제공업체들은 클라우드에서 엔비디아 GPU로 해당 플랫폼을 구동함으로써, 시선 교정, 초고해상도, 노이즈 캔슬링, 페이스 리라이팅(face rewriting)과 같은 새로운 AI 기능을 제공할 수 있습니다. 또한 데이터는 로컬 디바이스가 아닌 클라우드에서 처리되므로, 최종 사용자는 별도의 하드웨어가 없이도 새로운 기능을 이용할 수 있답니다.

이안 벅(Ian Buck) 엔비디아 가속 컴퓨팅 담당 부사장 겸 총괄은 “수백만의 사용자가 원격으로 일하고 학습하고 놀고 진료까지 보는 오늘날의 화상회의는 일상의 일부로 자리 잡았습니다. 엔비디아 Maxine은 가장 진일보한 동영상, 음성, 대화형 AI 기능이 통합된 새로운 플랫폼으로 혁신적인 기능을 제공해 우리 모두가 서로 연결될 수 있도록 합니다”라고 설명했습니다.

혁신적인 AI 효율성으로 대역폭을 줄여 통화 품질 향상

Maxine 플랫폼은 화상 통화에 필요한 대역폭을 획기적으로 줄입니다. 픽셀로 이뤄진 전체 화면을 스트리밍하는 대신 통화 중인 각 개인의 안면에서 주요 포인트를 분석해 상대편 화면에 얼굴을 지능적으로 재구성하기 때문인데요. 이를 통해 인터넷에서 동영상을 스트리밍할 때 교환되는 데이터 플로우가 크게 줄어들게 됩니다.

엔비디아 GPU로 구동되는 Maxine의 AI 기반 영상 압축 기술을 사용하면 영상 대역폭 소비를 스트리밍용 영상의 압축 표준인 H.264의 10분의 1까지 절감할 수 있습니다. 이를 통해 최종 사용자에게 보다 매끄러운 화상회의 경험을 제공하는데요. 사용자의 입장에서는 컴퓨터, 태블릿, 휴대폰이 스트리밍하는 데이터의 양을 줄이는 동시에 AI가 구현하는 추가적 서비스들을 누릴 수 있게 되는 거죠.

사용자의 화상회의 경험을 개선하는 AI 기능

엔비디아 Maxine에는 엔비디아 자체 개발의 혁신적인 기능들이 추가돼 화상회의 시 얼굴을 맞대고 대화하는 듯한 현장감을 제공합니다. 또한, 화상회의 서비스 제공업체들은 엔비디아 리서치가 개발한 생성적 대립 신경망(GAN, Generative Adversarial Network)을 활용해 각종 새로운 기능들을 제공할 수 있습니다.

일례로, 페이스 얼라인먼트(face alignment) 기능은 통화 중에 서로 마주보고 있는 느낌을 주도록 얼굴을 자동 조정하고, 시선 교정 기능은 카메라가 사용자의 화면과 불일치하더라도 눈을 맞추는 것처럼 보이게 하는데요. 올해 초 이후 화상회의가 10배가량 증가한 상황에서 이러한 기능들은 사용자가 카메라 대신 대화에 집중할 수 있도록 돕습니다.

또한 개발자들은 통화 참가자가 자신만의 애니메이션 아바타를 선택하고 실시간으로 음성과 감정 톤에 따라 자동으로 움직이는 사실적인 애니메이션 기능을 제공할 수 있는데요. 자동 프레임 옵션이 있어 스피커가 화면에서 멀어 지더라도 비디오 피드가 스피커를 따라간다고 합니다.

그리고 엔비디아 Riva SDK로 지원하는 대화형 AI 기능을 사용하는 개발자들은 최첨단 AI 언어 모델 기반의 가상 어시스턴트를 통합할 수 있습니다. 가상 어시스턴트는 메모를 하고, 행동 항목을 설정할 뿐 아니라, 인간의 목소리로 질문에 답할 수 있는데요. 번역, 자막, 대화록과 같은 추가 대화형 AI 서비스는 회의에서 논의되고 있는 내용을 이해하도록 지원합니다.

클라우드 네이티브 아키텍처로 대규모의 AI 구현과 비용 절감

특정 시간에 진행될 화상회의 수요를 예측하는 것은 어려울 수 있습니다. 수 백 또는 수 천의 사용자가 하나의 화상회의에 동시에 접속할 수 있기 때문입니다. 엔비디아 Maxine은 엔비디아 GPU 기반 쿠버네티스 컨테이너 클러스터에서 실행되는 AI 마이크로서비스를 활용해 개발자들이 실시간 수요에 따라 서비스를 확장할 수 있도록 돕습니다. 또한 사용자는 여러 AI 기능을 동시에 실행하면서 애플리케이션 레이턴시 요구 사항을 충족시킬 수 있습니다.

이제 화상회의 서비스 업체들은 Maxine을 통해 클라우드에서 엔비디아 GPU 상의 AI 추론 워크로드를 구동하고 수십만 사용자에게 선도적인 AI 기능을 제공할 수 있습니다. 이외에도 Maxine 플랫폼은 모듈식으로 설계돼 개발자들이 AI 기능을 선택해 자신의 화상회의 솔루션에 접목할 수 있도록 지원합니다.

엔비디아 AI 개발자를 위한 툴

Maxine 플랫폼에는 엔비디아 AI SDK와 API 기술이 통합되어 있습니다. 또한 엔비디아 Riva와 엔비디아 DeepStream SDK로 음성과 영상 스트리밍의 처리량을 늘리고 엔비디아 TensorRT SDK로 고성능 딥 러닝 추론을 지원합니다.

업계 최고 플랫폼으로 손꼽히는 엔비디아 DGX 시스템에서 수 십만 시간의 AI 학습을 통해 탄생한 엔비디아 SDK의 AI 음성, 영상, 자연어 기능은 Maxine에 탑재돼 학습, 추론, 데이터 사이언스 워크로드를 최적화 지원합니다.

컴퓨터 비전 AI 개발자, 소프트웨어 파트너, 음성과 영상 애플리케이션을 제작하고 관련 서비스를 제공하는 스타트업과 컴퓨터 제조사는 엔비디아 Maxine 플랫폼에 조기 액세스할 수 있습니다.