음성 영상 품질을 혁신할 NVIDIA Maxine 최신 릴리스 소식

NVIDIA Maxine의 최신 릴리스는 실시간 오디오와 영상 커뮤니케이션의 토대를 강화합니다. Maxine은 화상 회의, 고객 센터와 통화, 라이브 스트림 등 다양한 활동에서 명확한 소통을 지원해 가상 인터랙션의 품질을 높입니다.

NVIDIA Maxine은 GPU 가속 AI 소프트웨어 개발 키트(SDKs)와 클라우드 네이티브 마이크로서비스 제품군으로, AI 기능을 최적화하고 배포를 가속해 오디오와 비디오, 증강현실(AR)의 효과를 실시간으로 개선합니다.

또한 Maxine의 최신 모델들은 값비싼 장비가 없이도 오디오와 비디오의 품질을 개선하게 해줍니다. NVIDIA AI 기반 테크놀로지 덕분에 기본 마이크와 카메라 장비만으로도 고품질의 효과들을 구현할 수 있죠.

이번 GTC에서 NVIDIA는 클라우드 네이티브 마이크로서비스를 위해 설계된 Maxine의 새 아키텍처와 함께 Maxine 오디오 효과 마이크로서비스의 얼리 액세스 릴리스를 발표했습니다. 이에 더해 Maxine SDK의 신기능들도 공개됐는데요. 스피커 포커스(Speaker Focus)와 표정 감지(Face Expression Estimation)가 새롭게 제공되고, 아이 콘택트(Eye Contact) 기능의 GA(general availability) 버전이 출시됩니다. 이제부터는 NVIDIA Maxine에 기존 SDK 기능의 개선 버전들도 함께 포함됩니다.

Maxine 클라우드 네이티브

Maxine의 클라우드 네이티브 마이크로서비스로 실시간 AI 애플리케이션을 구축할 수 있습니다. 마이크로서비스는 독립적 관리와 클라우드에의 원활한 배포가 가능해 개발 일정을 가속합니다.

조기 체험 프로그램으로 제공되는 Audio Effects 마이크로서비스에는 최첨단 오디오 기능 4종이 포함됩니다.

배경 잡음 제거(Background Noise Removal): AI 모델로 일반적인 배경 잡음을 제거하는 동시에 화자의 자연스러운 목소리를 보존합니다.
실내 반향 제거(Room Echo Removal): AI 모델로 오디오의 잔향을 제거하고 화자의 음성을 선명하게 복원합니다.
오디오 슈퍼 해상도(Audio Super Resolution): 오디오 신호의 주기 해상도(temporal resolution)를 높여 품질을 향상합니다. 현재 8 kHz를 16 kHz로, 16 kHz를 48 kHz로 업샘플링합니다.
음향 반향 제거(Acoustic Echo Cancellation): 인풋 오디오 스트림에서 음향 디바이스의 반향을 실시간으로 제거해 음향 불일치와 오디오 물림 현상을 제거합니다. AI 기반 테크놀로지로 기존의 디지털 신호 처리보다 더 효과적인 제거가 가능합니다.

엔터프라이즈 화상 회의와 협업 솔루션을 제공하는 선도적 기업 펙십(Pexip)은 NVIDIA AI 테크놀로지로 오늘날의 노동 형태에 부합하는 고급 기능들을 선보이며 가상 회의의 수준을 한 단계 업그레이드합니다.

펙십의 에디 클리프턴(Eddie Clifton) 전략적 제휴 부문 수석 부사장은 “Maxine이 클라우드 네이티브 마이크로서비스로 옮겨가면서 NVIDIA의 진일보한 AI 테크놀로지를 펙십 고유의 서버 아키텍처에 더욱 원활히 통합하게 될 것”이라고 설명합니다. “이를 통해 가상 회의 경험을 더욱 개선할 수 있을 것으로 기대하고 있습니다.”

NVIDIA Maxine의 얼리 액세스를 신청하세요.

SDK의 더욱 개선된 기능 탐색하기

Maxine은 AI로 실시간 커뮤니케이션을 재창조하는 GPU 가속 오디오/비디오/AR 효과 SDK를 제공합니다.

오디오 효과 SDK는 멀티 이펙트, 저지연, AI 기반 오디오 품질 향상 알고리즘을 제공합니다. 얼리 액세스로 만나볼 수 있는 Speaker Focus는 전면과 배경 화자들의 오디오 트랙을 분리하는 신기능으로 각각의 음성을 구분하기 쉽게 해줍니다. 이에 더해 Audio Super Resolution SDK의 품질이 업데이트를 통해 개선됐습니다.

비디오 효과 SDK는 기본 웹캠의 인풋으로 AI 기반 비디오 효과를 생성합니다. 인물의 옆얼굴을 분할하고 AI 기반의 배경 제거/교체/블러 처리를 입히는 Virtual Background 기능이 업데이트되면서 주기 안정성(temporal stability)을 강화했습니다.

AR 효과 SDK는 기본 웹 카메라 피드에 기초해 AI 기반의 실시간 3D 얼굴 인식과 자세 예측 기능을 제공합니다. 최신 기능에는 다음이 포함됩니다.

아이 콘택트(Eye Contact): 시선을 예측하거나 카메라와 정렬해 눈맞춤을 시뮬레이션합니다.
표정 예측(Face Expression Estimation): 얼굴 인식을 통해 표정의 의미를 추론합니다.

다음의 AR 기능들이 업데이트됐습니다.

자세 예측(Body Pose Estimation): 인체의 34개 핵심 포인트를 2D와 3D로 예측하고 추적합니다. 이제 다수 인물 인식도 지원합니다.
얼굴 특징 인식(Face Landmark Tracking): 126개의 핵심 포인트를 사용해 얼굴의 특징과 윤곽을 인식합니다. 고개의 움직임과 표정으로 인한 얼굴 변형과 머리 위치 변화를 3자유도로 실시간 인식합니다. 이제 퀄리티(Quality) 모드로 더욱 뛰어난 품질의 인식이 가능해집니다.
얼굴 메시(Face Mesh): 최대 3,000개의 꼭지점과 6자유도를 가진 3D 메시로 인물의 얼굴을 표현합니다. 이제 USC 크리에이티브 테크놀로지 연구소(USC Institute of Creative Technologies)의 3D 모퍼블(morphable) 모델들도 함께 제공됩니다.

Maxine SDK를 경험하세요. Maxine의 효과들을 직접 체험하려면 NVIDIA Broadcast App을 다운로드하세요.

AI 기반 최첨단 효과들과 만나세요

Maxine SDK와 마이크로서비스가 제공하는 저지연 AI 효과들은 기존의 고객 인프라와 통합이 가능합니다. 개발자들은 최첨단 AI 기능들과 Maxine을 병용할 수도 있습니다. Maxine 테크놀로지는 NVIDIA AI 플랫폼에 기반해 구축됐으며 세계적 수준의 사전 훈련 모델을 보유해 프리미엄급의 오디오와 비디오 품질 기능을 생성, 커스터마이징, 배포하게 해줍니다.

Maxine은 NVIDIA Omniverse Avatar Cloud Engine(ACE)에도 포함돼 있습니다. 이 클라우드 기반 AI 모델과 서비스의 컬렉션은 인터랙티브 아바타의 구축과 커스터마이징, 배포를 지원합니다. Maxine의 커스터마이징이 가능한 클라우드 네이티브 마이크로서비스는 AI 효과 파이프라인에 독립적으로 배포할 수 있습니다. Maxine은 온프레미스 환경과 클라우드, 엣지에 배포됩니다.

NVIDIA 설립자 겸 CEO 젠슨 황(Jensen Huang)의 GTC 키노트를 시청하고 NVIDIA Maxine과 다른 테크놀로지의 혁신에 대해 자세히 알아보세요.