가상 비서, 전사(transcription) 또는 고객 센터 등에 사용되는 음성 AI 서비스는 단어와 대화를 비즈니스에 활용할 수 있는 마법의 비트와 바이트로 바꾸고 있습니다.
이번 GTC에서 NVIDIA는 음성 AI 애플리케이션을 구축, 배포하기 위한 GPU 가속 소프트웨어 개발 키트인 NVIDIA Riva에 새로운 추가 기능을 발표했습니다.
Riva의 사전 훈련된 모델은 이제 프랑스어와 힌디어를 포함한 7개 언어로 제공되는데요. 아랍어, 이탈리아어, 일본어, 한국어, 포르투갈어가 새로 추가됐습니다. 또한 Riva는 영어, 독일어, 북경어, 러시아어, 스페인어의 정확도를 향상시킵니다. 단어 수준 신뢰도 점수와 오디오 스트림에서 화자를 식별하는 프로세스인 화자 분할(diarization)과 같은 기능이 추가됐습니다.
Riva는 고유한 문제를 효율적으로 해결할 수 있도록 음성 AI 파이프라인의 모든 단계에서 완전히 사용자 지정할 수 있도록 구축됐습니다. 개발자는 온프레미스, 하이브리드 멀티클라우드, 엣지, 임베디드 디바이스 등 원하는 데이터 위치에 배포할 수도 있습니다. 기업에서 서비스, 효율성, 경쟁력을 강화하는 데 사용됩니다.
음성 서비스용 AI에 대한 수요는 높지만 개발 도구는 뒤쳐져 있는데요. 더 많은 사람들이 집에서 일하고 배우고, 온라인 쇼핑을 하고, 원격 고객 지원을 원하고 있습니다. 이는 콜센터에 부담을 주고 음성 애플리케이션을 한계에 이르게 하죠. 2022년 블룸버그(Bloomberg) 보고서에 따르면 인력 부족이 콜센터에 큰 타격을 줌에 따라 고객 서비스 대기 시간이 최근 3배 증가했습니다.
음성 AI의 발전은 앞으로 나아갈 길을 제시합니다. NVIDIA Riva를 통해 기업은 더 큰 규모의 딥 러닝 모델을 탐색하고 보다 세밀한 음성 시스템을 개발할 수 있습니다. Riva에 구축된 음성 AI 애플리케이션은 더 나은 서비스로의 가속화된 경로를 제공하여 개선된 고객 경험과 참여를 약속합니다.
음성 AI 애플리케이션에 대한 수요 증가
포춘 비즈니스 인사이트(Fortune Business Insights)에 따르면, 전 세계 고객 센터 소프트웨어 시장은 2021년 약 270억 달러에 이르렀으며, 이 수치는 2029년까지 790억 달러로 거의 세 배 증가할 것으로 예상됩니다.
이러한 증가는 맞춤형 음성 애플리케이션이 글로벌 기업에서 음성 AI 기반 시스템과 클라우드 서비스를 제공하는 OEM, 시스템 통합업체, 독립 소프트웨어 공급업체에 이르기까지 거의 모든 산업의 모든 규모의 기업에 제공하는 이점 때문입니다.
워크플로우를 가속화하는 Riva SDK
NVIDIA Riva에는 코드가 없는 환경에서 사용자 정의 데이터 세트를 허용하는 NVIDIA TAO 툴킷의 전이 학습을 사용하여 미세 조정하거나 그대로 사용할 수 있는 사전 훈련된 언어 모델이 포함되어 있습니다. Riva 자동 음성 인식(ASR)와 텍스트 음성 변환(TTS) 모델을 음성 서비스로 최적화, 내보내기, 배포할 수 있습니다.
음성 AI는 고객 지원 가상 비서와 챗봇, 화상 회의 시스템, 드라이브 스루 간편식 주문, 전화 주문, 미디어와 엔터테인먼트와 같은 훨씬 더 많은 유형의 애플리케이션에 적용되고 있습니다. T-모바일(T-Mobile), 딜로이트(Deloitte), HPE, 인터랙션(Interactions), 1-800-Flowers.com, 콴티파이(Quantiphi), Kore.ai를 포함한 많은 글로벌 기업이 음성 AI 활용을 가속하기 위해 Riva를 채택했습니다.
- T-모바일은 17,000명의 고객 서비스 상담원을 위해 AI를 사용해 실시간 고객 대화를 기록하고 솔루션을 추천하는 맞춤형 콜센터 애플리케이션인 T-모바일 엑스퍼트 어시스트(T-Mobile Expert Assist)를 위해 Riva를 채택했습니다. T-모바일은 곧 전 세계에 Riva를 배포할 계획입니다.
- 휴렛 팩커드 엔터프라이즈(HPE)는 오디오를 통찰력으로 쉽게 전환해주는 복잡한 음성 AI와 자연어 처리 워크로드를 개발, 실행할 수 있는 시스템에 NVIDIA GPU와 NVIDIA Riva 소프트웨어가 포함된 HPE ProLiant 서버를 제공합니다. HPE ProLiant 시스템과 NVIDIA Riva는 금융 서비스와 기타 산업의 애플리케이션을 실행하기 위한 세계적 수준의 풀스택 솔루션을 구성합니다.
HPE의 HPE GreenLake 솔루션 부사장인 스콧 램지(Scott Ramsay)는 “HPE는 NVIDIA Riva의 기능을 제공하기 위해 HPE Ezmeral 소프트웨어를 기반으로 하는 쿠버네티스(Kubernetes) 기반 NLP 참조 아키텍처를 제공합니다. HPE GreenLake 클라우드 플랫폼을 통해 제공되는 이 시스템을 통해 개발자는 차세대 음성 AI 애플리케이션의 개발과 배포를 가속화할 수 있습니다”라고 말했습니다.
- 딜로이트는 ASR과 TTS 사용 사례를 배포하고자 하는 고객을 지원합니다. 예를 들면 세계 최대의 퀵-오더 레스토랑의 주문 접수 시스템이 있죠. 또한 헬스케어 제공업체를 위해 환자 질문과 채팅 내용의 정확하고 효율적인 전사를 가능하게 하는 챗봇 서비스를 개발하고 있습니다.
딜로이트 US의 크리스틴 안(Christine Ahn) 책임은 “자연어 처리의 발전으로 목적에 맞고 단순하며 자연스러운 고객 대화를 가능하게 하는 비용 효율적인 경험을 설계할 수 있게 됐습니다. 우리 고객들은 대화형 AI 배포를 위한 간소화된 경로를 찾고 있으며 NVIDIA Riva는 그 경로를 지원합니다”라고 말했습니다.
- 인터랙션은 Riva를 쿠로(Curo) 소프트웨어 플랫폼과 통합하여 통신을 포함한 광범위한 산업 분야의 고객과 1-800-Flowers.com과 같이 음성 AI 주문 접수 시스템을 배포하는 회사를 위해 원활하고 개인화된 서비스를 제공하고 있습니다.
- Kore.ai는 BankAssist, HealthAssist, AgentAssist, HR Assist, IT Assist 제품을 지원하는 SmartAssist 음성 AI 서비스형 고객센터와 Riva를 통합하고 있습니다. NVIDIA Riva로 개념 증명(POC)이 진행 중입니다.
- Quantiphi는 폭스 뉴스(Fox News)를 포함한 미디어, 엔터테인먼트 분야의 고객을 위해 Riva를 사용하여 자막 솔루션을 개발하는 솔루션 공급 파트너입니다. 또한 통신 등 기타 산업 분야에서 Riva와 함께 디지털 아바타를 개발하고 있습니다.
복잡한 음성 AI 파이프라인을 위한 더 쉬운 솔루션
음성 AI 파이프라인은 복잡할 수 있으며 여러 서비스에서 조정이 필요합니다. 마이크로서비스는 ASR 모델, 자연어 이해, TTS, 도메인별 앱을 사용하여 대규모로 실행해야 하는데요. NVIDIA GPU는 이러한 유형의 특수 작업을 가속하는 데 이상적입니다.
Riva는 음성 AI 애플리케이션 구축을 위한 소프트웨어 라이브러리를 제공하며 최신 딥 러닝 모델을 사용하는 ASR과 TTS용 GPU 최적화 서비스를 포함합니다. 개발자는 애플리케이션 내에서 이러한 여러 음성 AI 기술을 융합할 수 있습니다.
개발자는 GPU 최적화 AI 소프트웨어, 모델, Jupyter 노트북 예제를 위한 허브인 NVIDIA NGC를 통해 Riva와 사전 훈련된 모델에 쉽게 액세스할 수 있습니다.
Riva에 대한 지원은 모든 조직에서 AI를 사용할 수 있도록 최적화된 AI, 데이터 분석 소프트웨어의 클라우드 네이티브 제품군인 NVIDIA AI Enterprise를 통해 제공됩니다. 엔터프라이즈 데이터센터에서 퍼블릭 클라우드에 이르기까지 어디에서나 배포할 수 있도록 인증됐으며, AI 프로젝트를 위한 글로벌 엔터프라이즈 지원이 포함됩니다.
NVIDIA LaunchPad에서 바로 실행할 수 있는 인프라에 대한 가이드 랩과 함께 NVIDIA Riva를 사용해 보세요.