대화형 AI 프레임워크 NVIDIA Riva 출시

NVIDIA Riva 프레임워크가 공식 출시됐습니다. NVIDIA Riva 프레임워크는 개발자들이 모든 산업 전반에서 쉽게 대화형 AI 서비스를 구축할 수 있도록 사전 훈련된 최첨단 딥러닝 모델과 소프트웨어 툴을 제공합니다.

매일 수십억 시간에 달하는 전화 통화, 화상회의, 스트리밍 방송 비디오 콘텐츠가 쌓이고 있습니다. 이러한 데이터를 바탕으로 NVIDIA Riva는 매우 정확하게 음성을 자동 인식하고 여러 언어에 대한 실시간 번역을 지원하며 대화형 AI 에이전트를 생성해 새로운 텍스트 음성 변환 기능을 제공할 수 있는데요.

GPU 가속을 활용하면 엔드-투-엔드 음성 파이프라인을 100밀리초 이내에 실행할 수 있습니다. 이는 사람 눈이 깜빡하는 것보다도 빠르게 청취, 이해, 응답 생성이 가능하다는 의미인데요. NVIDIA Riva는 클라우드, 데이터센터 또는 엣지에 구축되어 수백만 명의 사용자로의 즉시 확장이 가능하죠.

젠슨 황(Jensen Huang) NVIDIA 창립자 겸 CEO는 “대화형 AI는 여러 면에서 궁극적인 AI”라며, “음성 인식, 언어 이해, 음성 합성 분야의 딥러닝 혁신이 클라우드 서비스를 가능하게 했습니다. NVIDIA Riva는 어디에서나 AI 서비스를 호스팅할 수 있도록 클라우드에서 이 최첨단 대화형 AI를 제공합니다”라고 말했습니다.

또한 NVIDIA Riva는 이전에는 불가능했던 새로운 종류의 언어 기반 애플리케이션을 가능하게 해 인간과 기계 간의 상호작용을 개선할 것으로 기대됩니다. 예를 들면, 디지털 간호사가 24시간 환자를 모니터링해 의료진의 과중한 업무를 줄이고, 온라인 비서가 소비자가 원하는 것을 이해해 최적의 제품을 추천하며, 실시간 번역으로 글로벌 업무 협업을 개선하고, 시청자들은 모국어로 생방송 콘텐츠를 즐길 수 있게 될 겁니다.

NVIDIA Riva는 세계 최고 수준의 정확도를 달성하기 위해 10억 페이지 이상의 텍스트, 6만 시간의 음성 데이터, 다양한 언어, 억양, 환경 및 용어로 수백만 시간 동안 훈련된 모델을 사용하는 데요. 개발자는 최초로 NVIDIA TAO를 통해 모든 작업, 산업 및 시스템에서 이러한 모델을 쉽게 훈련, 조정 및 최적화할 수 있습니다.

개발자들은 NVIDIA NGC 카탈로그에서 NVIDIA Riva 사전 훈련 모델을 선택할 수 있는데요. 트랜스퍼 러닝 툴킷(Transfer Learning Toolkit)으로 자체 데이터를 이용해 미세 조정하고, 실시간 음성 서비스의 처리량과 최소 지연 시간에 맞게 최적화한 다음, 몇 줄의 코드만 사용하여 쉽게 모델을 배포할 수 있습니다.

여러 업계의 선도기업들이 조기 채택해 활용 중

지난 5월 NVIDIA Riva의 조기 액세스 프로그램이 시작된 이후, 수천 개의 회사들이 참여 의사를 밝혔습니다. 초기 사용자 중에는 미국 통신 대기업인 티모바일(T-Mobile)도 있습니다. 티모바일은 자연어 처리를 이용한 머신러닝 제품을 AI가 더욱 강화시켜줄 것으로 기대하고 있습니다.

티모바일 제품 및 기술 부문 부사장인 매튜 데이비스(Matthew Davis)는 “NVIDIA Riva 서비스를 통해 티모바일은 실시간으로 고객 문제를 해결할 수 있는 제품을 구축하고 있습니다. 티모바일은 여러 자동 음성 인식 솔루션을 평가한 결과, NVIDIA Riva가 매우 짧은 대기 시간에 양질의 모델을 제공해 고객이 만족할 만한 경험을 가능하게 한다는 것을 확인했습니다”라고 말했습니다.

NVIDIA는 또한 스타트업, 연구원 및 개발자들의 음성 지원 애플리케이션, 서비스 및 장치 훈련을 위한 오픈소스 음성 데이터 세트인 모질라 커먼 보이스(Mozilla Common Voice)와 협력하고 있는데요. 세계 최대의 다국어 공용 도메인 음성 데이터 세트인 커먼 보이스는 60개 언어로 기부된 음성 데이터가 총 9,000시간이 넘습니다. 여기에 NVIDIA Riva가 도입돼 데이터 세트로 사전 훈련된 모델을 개발하고 커뮤니티에 무료로 제공하고 있죠.

마크 서먼(Mark Surman) 모질라 전무 이사는 “우리는 기계에 실제 인간의 고유한 언어, 억양, 말투로 말하는 방법을 가르치기 위해 커먼 보이스를 시작했습니다. NVIDIA와 모질라는 음성 기술을 대중화해 인터넷을 구성하는 다양한 사람과 음성을 반영할 수 있게 한다는 공통의 비전을 가지고 있습니다”라고 말했습니다.

NVIDIA의 대화형 AI 툴은 4만 5천 건 이상의 다운로드를 기록했는데요. 수백 개 파트너사의 기술과 결합돼 선도적인 소프트웨어 라이브러리를 지원하고 전 세계 개발자들이 혁신적이고 직관적인 대화형 AI 애플리케이션을 구축할 수 있도록 돕고 있습니다.

유튜버이자 PythonProgramming.net의 설립자인 해리슨 킨슬리(Harrison Kinsley)는 “NVIDIA Riva는 다양한 종류의 사전 훈련된 모델을 보유하고 있어 자동 음성 인식부터 자연어 처리, 텍스트 음성 변환까지 대화형 AI를 위한 진정한 엔드-투-엔드 파이프라인입니다. 모든 모델이 놀랍도록 빠르고 잘 최적화되어 있으며, 개발자는 대화형 AI 작업에 적용되는 많은 예제를 통해 API를 손쉽게 사용할 수 있습니다”라고 말했습니다.