AI로 실시간 통신 경험 혁신하는 NVIDIA Maxine

누구나 목소리를 들려주고 싶어합니다. 그리고 그 어느 때보다 많은 사람들이 집에서 화상 통화를 하거나 라이브 스트리밍을 하고 있죠. 이 때문에 온라인 경험 향상을 위해서는 음향 반향이나 개 짖는 소리와 같은 배경 소음이 없는 풍부한 오디오가 중요합니다.

GPU 가속 AI 기반 소프트웨어 개발 키트를 제공하는 NVIDIA Maxine 은 개발자가 통화 품질과 사용자 경험을 개선하는 확장 가능한 저지연 오디오, 비디오 효과 파이프라인을 구축할 수 있도록 지원합니다.

NVIDIA는 GTC에서 Maxine이 음질 개선을 위해 Acoustic Echo Cancellation(음향 반향 제거)와 AI 기반 업샘플링을 추가한다고 발표했습니다.

Acoustic Echo Cancellation은 오디오 스트림에서 음향 반향을 실시간으로 제거하여 이중 통화 중에도 음성 품질을 유지합니다. Maxine은 AI 기반 기술을 사용해 기존 디지털 신호 처리 알고리즘을 통해 달성한 것보다 더 효과적인 반향 제거를 구현합니다.

Audio Super Resolution은 AI 기반 기술을 사용해 고주파수 대역에서 손실된 에너지를 복원하여 저대역폭 오디오 신호의 품질을 개선합니다. Maxine Audio Super Resolution은 8kHz(협대역)에서 16kHz(광대역), 16kHz에서 48kHz(초광대역), 8kHz에서 48kHz까지 오디오 업샘플링을 지원합니다. 8kHz와 같은 더 낮은 샘플링 속도는 종종 음성을 불분명하게 만들고 치찰음과 같은 아티팩트를 강조하여 음성을 이해하기 어렵게 만듭니다.

현대의 영화와 텔레비전 스튜디오는 원래 신호의 충실도를 유지하고 선명도를 유지하기 위해 오디오 녹음에 48kHz(또는 그 이상) 샘플링 속도를 사용하는 경우가 많습니다. Audio Super Resolution은 자기 테이프 또는 기타 저대역폭 미디어에서 파생된 오래된 오디오 녹음의 충실도를 복원하는 데 도움이 될 수 있습니다.

사운드 격차 해소

대부분의 현대 통신은 광대역 또는 초광대역 오디오를 사용하여 이루어집니다. NVIDIA Audio Super Resolution은 협대역 오디오를 실시간으로 업샘플링하고 복원할 수 있기 때문에, 이 기술을 효과적으로 사용하면 기존 구리 전화선과 최신 VoIP 기반 광대역 통신 시스템 간의 품질 격차를 해소할 수 있습니다.

전화 회의, 콜 센터 또는 모든 종류의 라이브 스트리밍을 위한 실시간 통신 기술이 Maxine과 함께 크게 도약하고 있습니다.

Maxine은 최초 출시 이후 비디오 통신, 콘텐츠 제작, 라이브 스트리밍을 위한 세계 유수의 기업들에 의해 채택됐습니다.

포춘 비즈니스 인사이트(Fortune Business Insights)에 따르면, 전 세계 화상 회의 시장은 2021년 약 63억 달러에서 2028년 거의 130억 달러로 성장할 것으로 예상됩니다.

재택근무, 삶의 방식이 되다

재택근무(WFH)로의 전환은 기업 전반에 걸쳐 수용된 표준이 되었으며, 조직들은 새로운 기대치에 적응하고 있죠.

분석 전문 기업 가트너(Gartner)는 2024년에는 기업 회의의 4분의 1만이 대면 회의가 될 것으로 추정했습니다.

팬데믹 상황 속에서 지난 2년 동안 사람들이 하이브리드와 원격 근무를 하게 됨에 따라 미국 내에서 비대면 협업은 중요한 역할을 하고 있습니다.

그러나 조직이 회사 문화와 직장 경험을 유지하려고 함에 따라 고품질 미디어 활용에 대한 관심이 높아지고 있죠.

칵테일 파티 문제 해결

때로는 일과 가정 생활이 충돌합니다. 그 결과, 회의 중 들리는 아이들 소리, 외부 공사 소음 또는 긴급 차량 사이렌 등이 전화 회의 흐름을 방해하곤 합니다.

Maxine은 칵테일 파티 문제로 알려진 고질적인 오디오 문제를 해결하는 데 도움이 됩니다. AI 기술로 원치 않는 배경 소음을 걸러낼 수 있으므로 사용자가 사무실에 있든 이동 중이든 목소리를 더 잘 들을 수 있습니다.

Maxine GPU 가속 플랫폼은 맞춤형 최신 모델과 통합되는 엔드 투 엔드 딥 러닝 파이프라인을 제공하여 표준 마이크와 카메라로 고품질 기능을 구현합니다.

최상의 음성 구현

배경 소음의 영향을 받는 것 외에도 비대면 활동 중 오디오 품질은 때때로 가늘게 들리거나, 중저역 주파수가 누락되거나 거의 들리지 않는 경우도 있습니다.

Maxine을 사용하면 실시간으로 오디오를 업샘플링하여 음성을 더 풍부하고 깊이 있고 더 잘 들리도록 할 수 있습니다.

로지텍: 헤드셋과 블루 예티(Blue Yeti) 마이크의 오디오 품질 향상

주변기기 분야의 선도기업인 로지텍(Logitech)은 인기 있는 헤드셋, 마이크 제품과의 더 나은 상호 작용을 위해 Maxine을 구현하고 있습니다.

로지텍은 AI 라이브러리를 활용해 Maxine을 G Hub 오디오 드라이버에 직접 통합함으로써 추가 소프트웨어 없이도 장치와의 통신을 향상시켰습니다. Maxine은 NVIDIA RTX GPU의 강력한 Tensor Core를 활용해 소비자가 마이크 신호의 실시간 처리를 즐길 수 있도록 합니다.

로지텍은 이제 G Hub 소프트웨어에서 Maxine의 최첨단 노이즈 제거 기능을 활용하고 있는데요. 이를 통해 화상 회의나 라이브 스트리밍 세션에서 방해가 될 수 있는 선풍기, 키보드, 마우스 클릭과 같은 배경 소음과 반향을 제거할 수 있습니다.

로지텍 G의 우제시 데사이(Ujesh Desai) GM은 “NVIDIA Maxine은 로지텍 G 게이머가 클릭 한 번으로 빠르고 쉽게 마이크 신호를 정리하고 원치 않는 배경 소음을 제거할 수 있게 해 줍니다. G HUB로 마이크 신호를 테스트하여 Maxine 설정이 제대로 되었는지 확인할 수도 있습니다”라고 말했습니다.

로지텍의 우제시 데사이 부사장은 “NVIDIA Maxine을 사용하면 사용자가 클릭 한 번으로 마이크 신호를 빠르고 쉽게 정리하고 원치 않는 배경 소음을 제거할 수 있습니다. 마이크 신호를 테스트하여 사용자에 맞는 완벽한 설정을 찾을 수도 있습니다”라고 말했습니다.

콘텐츠 크리에이터를 지원하는 텐센트 클라우드

텐센트 클라우드(Tencent Cloud)는 크리에이터의 콘텐츠 제작을 지원하기 위해 창의적인 배경을 빠르고 쉽게 추가할 수 있는 NVIDIA Maxine의 기술을 제공하고 있습니다.

NVIDIA Maxine의 AI Green Screen 기능을 통해 사용자는 기존의 그린 스크린 없이도 고품질 전경과 배경 분리를 통해 보다 몰입감 있는 존재감을 연출할 수 있습니다. 실제 배경이 분리되면 가상 배경으로 쉽게 교체하거나 흐리게 처리하여 피사계 심도(DOF) 효과를 낼 수 있습니다. 텐센트 클라우드는 콘텐츠 크리에이터를 위한 SaaS(서비스형 소프트웨어) 패키지로 이 신규 기능을 제공합니다.

텐센트 클라우드 오디오, 비디오 플랫폼 제품 센터 디렉터 벌처 리(Vulture Li)는 “전문 장비와 조명 없이도 보다 몰입감 있는 고품질 경험을 가능하게 하는 NVIDIA Maxine의 AI Green Screen 기술로 콘텐츠 크리에이터의 작품 제작을 돕고 있습니다”라고 말했습니다.