엔비디아, 확장된 맥신 기능 발표, 3D 기술로 영상 커뮤니케이션 경험 향상

이제 NVIDIA AI 엔터프라이즈에서 Maxine의 프로덕션 버전을 사용할 수 있으며, 연구 데모를 통해 3D 기술이 어떻게 비디오 커뮤니케이션을 향상시킬 수 있는지 보여줍니다.
by NVIDIA Korea

엔비디아 맥신(NVIDIA Maxine)의 프로덕션 버전을 출시했다. 해당 버전은 강력한 AI 성능을 통해 일반 마이크와 웹캠 사용 시에도 고품질 오디오와 비디오 효과를 제작할 수 있도록 지원합니다.

맥신 사용자는 GPU 가속 소프트웨어 개발 키트와 클라우드 네이티브 마이크로서비스 제품군을 통해 실시간 커뮤니케이션 서비스와 플랫폼에 오디오, 비디오, 증강 현실 효과를 강화하는 AI 기능을 배포할 수 있다. 또한 영상 편집 기능을 확장해 새로운 차원의 영상 커뮤니케이션을 제공받을 수 있습니다.

아울러 8월 6일부터 10일(현지시간)까지 열리는 시그래프(SIGGRAPH) 콘퍼런스에서는 엔비디아 리서치(Research) 데모가 진행된다. 데모에서는 AI가 3D 기능을 통해 화상 회의를 한 단계 더 발전시키는 방법을 시연합니다.

엔비디아 맥신, 영상 편집 분야로 기능 확장

무선 연결 덕분에 사람들은 다양한 장소에서 가상 회의에 참여할 수 있게 되었습니다. 하지만 일반적으로 참여자가 이동 중이거나 연결 상태가 좋지 않은 위치에 있을 경우 오디오와 비디오 품질에 큰 영향을 받게 됩니다.

맥신은 배경 소음 제거(Background Noise Removal), 슈퍼 해상도(Super Resolution), 아이 콘택트(Eye Contact) 등을 포함한 첨단 실시간 기능을 제공한다. 이러한 맥신 기능은 원격으로 회의에 참여하는 사용자의 대인 커뮤니케이션 경험을 크게 향상시킵니다.

이제 영상 편집에서도 맥신을 활용할 수 있습니다. 엔비디아 파트너는 맥신의 기능을 통해 화상 회의의 수준을 높이며 영상 편집의 전문적인 워크플로우를 혁신하고 있습니다. 세일즈 프레젠테이션이든 웨비나든 영상 편집의 목표는 가능한 한 많은 청중의 참여를 유도하는 것이다. 전문가들은 맥신을 통해 오디오와 비디오 신호를 향상시키는 AI 기능을 활용할 수 있습니다.

맥신을 사용하면 발표자가 화면에서 시선을 떼고 메모나 대본을 참조하더라도 화면에서는 카메라를 직접 바라보는 것처럼 영상을 출력할 수 있습니다. 동영상을 저해상도로 촬영한 뒤 추후 화질을 향상시키는 것도 가능합니다. 더불어 다양한 언어로 영상을 녹화한 뒤 영어로 변환할 수도 있습니다.

올해 얼리 액세스로 출시될 맥신은 다음과 같은 기능을 포함합니다.

  • 통역(Interpreter): 중국어 간체, 러시아어, 프랑스어, 독일어, 스페인어를 영어로 번역하는 동시에 사용자 이미지에 애니메이션을 적용해 영어로 말하는 모습을 보여줍니다.
  • 보이스 폰트(Voice Font): 사용자가 화자 목소리의 특징을 적용해 오디오 출력에 매핑할 수 있습니다.
  • 오디오 슈퍼 해상도(Audio Super Resolution): 오디오 신호의 시간적 해상도를 높이고 대역폭을 확장해 오디오 품질을 향상시킵니다. 현재 8,000Hz에서 16,000Hz까지, 16,000Hz에서 48,000Hz까지 업샘플링을 지원한다. 아울러 업데이트를 통해 지연 시간(latency)이 50% 이상 감소하고, 2배 이상 향상된 처리량을 제공합니다.
  • 맥신 클라이언트(Maxine Client): 맥신의 마이크로 서비스의 AI 기능을 PC의 화상 회의 세션에 제공합니다. 이 애플리케이션은 지연 시간이 짧은 스트리밍에 최적화돼 있으며 모든 GPU 컴퓨팅 요구 사항에 대해 클라우드를 사용합니다. 씬 클라이언트(Thin Client)는 올가을 윈도우에서 사용할 수 있으며, 이후 추가 OS 지원도 제공됩니다.

맥신은 클라우드, 온프레미스, 엣지에 배포할 수 있어 거의 모든 장소에서 고품질 커뮤니케이션에 대한 액세스가 가능합니다.

새로운 차원의 화상 회의 경험

맥신은 많은 파트너와 고객에게 고품질 화상 회의와 편집 경험을 선사합니다. 이제 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼의 프로덕션 릴리스에서 맥신의 두 가지 기능인 아이 콘택트(Eye Contact)와 라이브 초상화(Live Portrait)를 사용할 수 있습니다. 아이 콘택트 기능은 사용자의 시선을 예측하고 카메라와 정렬해 시선이 카메라를 똑바로 향하도록 시뮬레이션한다. 라이브 초상화는 라이브 비디오 피드를 통해 인물의 초상화를 애니메이션으로 표현합니다.

소프트웨어 회사인 디스크립트(Descript)는 문서, 슬라이드와 함께 비디오를 모든 커뮤니케이터의 툴킷의 필수 요소로 만드는 것을 목표로 합니다. 이제 디스크립트의 사용자는 숙련도에 관계없이 엔비디아 맥신을 통해 비디오 콘텐츠 워크플로우를 개선하는 AI 기능에 액세스할 수 있습니다.

디스크립트 비즈니스와 기업 개발 책임자인 제이 르뵈프(Jay LeBoeuf)는 “엔비디아 맥신 아이 콘택트 기능을 사용하면 대본 암기나 지루한 녹화 반복에 대해 걱정할 필요가 없습니다. 대본을 정확하게 소화하면서 화면상으로는 완벽한 집중도를 유지할 수 있다”고 말했습니다.

리인큐베이트(Reincubate)의 카모(Camo) 앱은 사람들이 이미 소유하고 있는 하드웨어와 장치를 활용해 훌륭한 비디오에 대한 액세스를 확대하는 것을 목표로 합니다. 따라서 보다 정교하게 이미지를 제어할 수 있도록 하고, 강력하고 효율적인 처리 파이프라인을 구현해 비디오 효과와 변환을 지원합니다. 카모는 엔비디아 맥신에서 지원하는 기술을 사용해 더 쉽게 놀라운 비디오를 제작하는 방법을 제공합니다.

리인큐베이트 설립자 겸 CEO인 에이든 피츠패트릭(Aidan Fitzpatrick)은 “엔비디아 맥신을 카모에 통합하는 것은 매우 쉬웠고, 이를 통해 사용자의 RTX GPU에서 높은 성능을 확보할 수 있었습니다. 맥신 덕분에 팀이 확신을 가지고 더욱 신속하게 작업할 수 있었다”고 말했습니다.

퀵링크(Quicklink)의 Cre8는 전문적인 브랜드 프로덕션, 가상과 하이브리드 라이브 이벤트를 제작할 수 있는 강력한 동영상 제작 플랫폼입니다. 사용자 친화적인 인터페이스는 직관적인 디자인과 전문가 수준의 프로덕션을 제작, 편집, 커스터마이징하는 데 필요한 모든 도구를 결합합니다. Cre8는 생산성과 비디오 프로덕션의 품질을 극대화하기 위해 엔비디아 맥신 기술을 통합해 완벽한 제어 기능을 제공합니다.

퀵링크 CEO 리차드 리스(Richard Rees)는 “이제 퀵링크 Cre8는 지구상에서 가장 진보된 영상 제작 플랫폼을 제공합니다. 엔비디아 맥신을 통해 자동 프레이밍, 비디오 노이즈 제거, 노이즈와 에코 제거, 아이 콘택트 시뮬레이션과 같은 고급 기능을 추가했다”고 말했습니다.

로스앤젤레스에 본사를 둔 제멜로.ai(gemelo.ai)는 사용자의 음성, 콘텐츠, 상호 작용을 확장할 수 있는 AI 트윈을 제작할 수 있는 플랫폼을 제공합니다. 제멜로.ai 팀은 맥신 라이브 초상화 기능을 사용해 확장된 개인 맞춤형 콘텐츠와 일대일 상호 작용을 위한 새로운 기회를 창출했습니다.

제멜로.ai CEO인 폴 재스키(Paul Jaski)는 “사실적인 라이브 초상화는 AI 트윈의 새로운 잠재력을 열어준 획기적인 기술입니다. 이제 앱, 웹사이트, 혼합 현실 경험 전반에서 강력한 기능으로 무한한 확장성을 누릴 수 있습니다. 이를 통해 콘텐츠 제작과 상호 작용에 있어 놀랍도록 생생한 디지털 트윈을 디자인하고 배포할 수 있다”고 말했습니다.

엔비디아 리서치, 3D 비디오를 통한 몰입형 커뮤니케이션 향상 시연

엔비디아 AI는 맥신의 첨단 기능을 강화하면서 동시에 3D로 영상 커뮤니케이션을 향상시킵니다. 엔비디아 리서치에서는 최근 최소한의 캡처 장비로 AI가 어떻게 3D 화상 회의 시스템을 강화할 수 있는지를 설명하는 논문을 발표했습니다.

3D 텔레프레즌스(telepresence) 시스템은 일반적으로 비용 부담이 크고, 넓은 공간이나 프로덕션 스튜디오를 필요로 하며, 고대역폭의 대용량 비디오 스트리밍을 사용하므로 기술 접근성이 제한됩니다. 이에 엔비디아 리서치는 신비전트랜스포머(VisionTransformer) 기반 인코더에서 실행되는 새로운 방법을 공유했습니다. 이 방법을 사용하면 표준 웹캠에서 2D 비디오 입력을 받아 3D 비디오 표현으로 변환할 수 있다. 회의 참가자들은 3D 데이터를 주고받을 필요 없이 AI를 통해 통화에 필요한 대역폭을 2D 회의와 동일하게 유지할 수 있습니다.

이 기술은 볼류메트릭(volumetric) 렌더링을 통해 사용자의 2D 비디오에 기반한 NeRF(neural radiance field)라는 3D 표현을 자동으로 생성합니다. 따라서 사용자는 기존 화상 회의처럼 2D 비디오를 스트리밍하면서 동시에 실시간으로 렌더링할 수 있는 고품질 3D 표현을 디코딩할 수 있습니다. 또한 맥신 라이브 초상화 기능을 통해 자신의 초상화를 3D로 생생하게 표현할 수 있습니다.

사용자는 AI를 이용한 3D 화상 회의를 통해 다양한 이점을 누릴 수 있습니다. 3D 캡처 비용 대폭 절감, 충실도 높은 3D 표현 제공, 사실적이거나 정형화된 아바타 구현, 화상 회의에서의 아이 콘택트 기능 등이 이에 해당합니다. 관련 연구 프로젝트는 AI가 커뮤니케이션과 가상 상호 작용을 개선하는 데 어떻게 도움이 되는지 보여주며, 화상 회의를 위한 미래의 엔비디아 기술에 대한 정보를 제공합니다.

관련 링크의 영상을 통해 시스템이 실제로 어떻게 작동되는지 확인해볼 수 있습니다. 시그래프 참석자들은 이머징 테크놀로지(Emerging Technologies) 부스에서 뉴욕에 본사를 둔 기업 루킹 글라스(Looking Glass)가 디자인한 3D 디스플레이를 통해 라이브 데모를 동시 시청할 수 있습니다.

출시 정보:

여기에서 엔비디아 AI 엔터프라이즈에서 지원되는 엔비디아 맥신에 대해 자세히 알아볼 수 있다.

더불어 3D 비디오 컨퍼런스 프로젝트에 대한 더 많은 연구 결과를 확인할 수 있다.

주요 이미지 제공: 엔비디아 리서치