‘맞춤형 가상 비서’ 음성 AI의 혁신을 이끌어내는 NVIDIA Riva

by NVIDIA Korea

단 하루 만에 30분 분량의 오디오 데이터로 인간과 유사한 맞춤형 음성을 만들 수 있는 음성 AI 소프트웨어 NVIDIA Riva Custom Voice를 소개합니다!

NVIDIA Riva의 구조

NVIDIA Riva Custom Voice는 많은 기업이 적은 양의 데이터를 사용해 몇 주가 아닌 몇 시간 내에 Riva와 함께 표현 가능한 맞춤형 음성을 개발할 수 있습니다.

기업은 Riva Custom Voice를 사용해 고유한 음성을 가진 가상 비서를 개발할 수 있는데요. 이를 이용해 콜센터에서는 고객에게 서비스를 제공하는 고유한 음성을 신속하게 개발할 수 있죠. 또한 개발자들은 음성과 언어에 장애가 있는 사람들을 지원하는 애플리케이션을 만드는데 활용할 수 있습니다.

NVIDIA AI 소프트웨어 담당 부사장인 카리 브리스키(Kari Briski)는 “AI가 인간과 같은 상호작용을 하도록 만드는 것이 가장 큰 과제였습니다. 산업별 전문 용어를 사용하고 있는 회사들은 이제 음성 AI를 사용해 고객의 독특한 목소리를 듣고 대응할 수 있으며, 더 매력적이고 즐거운 상호작용을 이끌어 낼 수 있습니다”라고 말했습니다.

Riva Custom Voice는 최신 버전의 NVIDIA Riva 음성 AI 소프트웨어개발키트(SDK)에서 사용할 수 있습니다. Riva SDK에는 세계 최고 수준의 자동 음성 인식, 다양한 악센트와 도메인에 맞게 커스텀 가능한 텍스트-투-스피치 기능이 포함되어 있죠. 또한 클라우드, 데이터센터, 엣지에서 수십 만개의 스트림으로 음성 서비스를 확장할 수 있는 기능도 제공합니다.

다양한 기업에서 채택된 NVIDIA Riva

NVIDIA의 대화형 AI 소프트웨어는 3년도 채 되지 않아 25만 번 이상 다운로드 되고, 다양한 업계에서 널리 채택되고 있죠.

링센트럴(RingCentral)은 글로벌 엔터프라이즈 클라우드 커뮤니케이션, 비디오 미팅, 협업, 연락센터 솔루션의 선두 공급업체로, 보다 매력적인 회의 환경을 만들기 위해 비디오 회의 라이브 캡션 기능에 Riva 자동 음성 인식을 사용하고 있습니다.

링센트럴의 제품 및 엔지니어링 담당 부사장 겸 총괄 매니저인 나트 나타라잔(Nat Natarajan)은 “우리의 목표는 회의를 스마트하게 만드는 것이며, NVIDIA Riva를 통해 다양한 억양 별 정확성을 높이기 위해 NVIDIA GPU에서 전사(transcription) 모델을 훈련할 수 있습니다. 미래에는 여러 개의 동시 스트림이 존재할 것으로 예측되며, Riva는 이를 300밀리초 이내에 실시간으로 실행하여 쉽게 확장할 수 있습니다. 우리는 NVIDIA와 함께 미래를 위해 협력하게 된 것을 기쁘게 생각합니다”라고 말했죠.

세계 최대 금융 서비스 회사 중 하나인 핑안(Ping An)은 가상 비서를 통해 대기시간을 줄여 고객 경험을 개선하고 있습니다. Riva를 사용하면 지속적으로 향상되는 정확도를 통해 실시간 음성 애플리케이션을 구축할 수 있습니다.

핑안 수석 과학자인 샤오 징(Jing Xiao)는 “우리는 챗봇 비서를 사용하여 매일 수백 만 건의 고객문의에 대응합니다. NVIDIA의 사전 훈련된 자동 음성 인식 모델을 사용하여 데이터를 더욱 정밀하게 조정함으로써 시스템 정확도를 5% 향상했으며, 더욱 매력적이고 진정한 서비스를 제공할 수 있게 됐습니다”라고 말했습니다.

수십 개의 소프트웨어 제조업체들도 생산에 NVIDIA 대화형 AI를 사용하고 있습니다. 고소프트 컨택 센터(Gosoft Contact Center)는 20개 이상의 비즈니스 도메인을 갖고 있는 CP 올(CP All)과 협력하고 있습니다. CP 올은 태국에 만 개이상의 세븐일레븐 편의점을 운영하고 있는데요. 총 24만 건의 전화는 태국어로 훈련된 매우 정확한 AI 보이스봇의 도움을 통해 하루에 처리됩니다.

플라북 에듀케이션(Plabook Education), 데이터 몬스터(Data Monster)는 잘못 발음된 단어를 식별하고 읽기 정확도를 측정하는 AI로 작동하는 디지털 아바타 읽기 도우미를 통해 아이들이 읽기를 배울 수 있도록 미국 전역의 학군과 협력하고 있습니다.

NVIDIA Riva 이용

NVIDIA Riva는 소규모 연구와 개발을 위해 NVIDIA NGC 컨테이너 레지스터리에서 무료로 제공됩니다. 개발자는 지금 Riva 오픈 베타 프로그램에 참여해 소프트웨어를 사용해보고 추가적인 기능에 대한 알림을 받을 수 있습니다. NVIDIA는 대규모 배포를 원하는 고객과 NVIDIA 전문가의 기술 지원을 원하는 고객을 위해 NVIDIA Riva Enterprise 프로그램을 발표했으며, 이는 내년 초에 제공될 예정입니다.

GTC에서 소개된 Riva

GTC 키노트에서 NVIDIA 창립자 겸 CEO인 젠슨 황은 Riva Custom Voice의 시연영상과 Riva의 음성 AI 기능을 선보였습니다. 해당 영상에서는 단 30분의 데이터로 인간과 같은 새로운 음성을 생성하는 모습을 확인할 수 있죠.

또한 Riva는 Project Tokkio, Drive Concierge, Project Maxine을 통해 대화형 아바타를 만들기 위한 플랫폼인 Omniverse Avatar와 함께 소개됐습니다. Project Tokkio와 Drive Concierge를 통해 고객은 서비스, 차량 내 환경에서 아바타를 선보였고, Project Maxine을 통해 실시간 번역과 다국어 전사를 공개했습니다.

GTC에는 허깅 페이스(Hugging Face), 스냅(Snap), T-모바일(T-Mobile) 등의 강연을 포함해 대화형 AI에 초점을 맞춘 24개 이상의 강연이 있습니다. 최첨단 알고리즘, 툴, 과제, GPU 가속 음성, 언어 AI 애플리케이션 개발과 통합 등을 다룹니다.

온라인으로 진행되는 GTC의 무료 참가 등록은 여기에서 가능합니다!