최첨단 대화형 AI 서비스 대중화 돕는 NVIDIA NeMo와 Riva 최신 업데이트 소식

by NVIDIA Korea

NVIDIA가 전사(transcription)의 정확성을 고도로 높일 세계적 수준의 음성 인식 기능을 업데이트하는 한편, 최첨단 음성과 언어 모델로 대화형 AI연구의 대중화와 가속화를 이끌 NeMo 1.0을 선보였습니다.

세계적 수준의 음성 인식

NVIDIA Riva가 제공하는 세계적 수준의 음성 인식은 즉시 사용이 가능한 음성 서비스로 클라우드와 데이터센터 일체에 간편하게 배포됩니다. Transfer Learning Toolkit(TLT)는 기업이 다양한 산업과 활용 사례 전반에서 음성 서비스를 커스터마이징할 수 있게 해줍니다. TLT는 또한 음성과 언어의 커스텀(custom) 모델 개발 속도를 10배까지 가속합니다.

https://youtu.be/jOf_AsBsrHA

이렇게 구축된 음성 인식 모델은 고도의 정확성을 자랑합니다. 또한 통신, 금융, 헬스케어, 교육에서 분야상의 제약이 없는 어휘, 그리고 다양한 종류의 독점 및 오픈소스 데이터세트의 용어로 훈련을 진행합니다. 추가적으로 노이지(noisy) 데이터, 콜센터용 8khz 등 다양한 샘플링 속도, 각종 억양과 대화로 훈련했다는 점도 모델의 정확도 향상에 기여합니다.

Riva 음성 서비스로 10밀리초 내에 전사(transcription)를 생성할 수 있습니다. Riva 음성 서비스는 다중의 독점 데이터세트에서 90% 이상의 정확도를 달성하는 것으로 평가되며 광범위한 종류의 활용 사례와 분야에 적용이 가능합니다. 콜센터, 화상 회의, 가상 어시스턴트에서 음성을 전사(transcription)하는 여러 애플리케이션에도 사용할 수 있습니다.

미국 최대 규모의 통신 사업자에 속하는 T-모바일(T-Mobile)은 Riva를 활용해 탁월한 수준의 고객 서비스를 제공합니다.

T-모바일의 제품, 테크놀로지 부문 부사장 매튜 데이비스(Matthew Davis)는 “T-모바일의 데이터로 미세 조정한 NVIDIA Riva 서비스를 사용하여 고객의 불편 사항을 실시간으로 해결하는 제품들을 구축하는 중”이라고 밝혔습니다.

그리고 “여러 자동 음성 인식 솔루션을 평가한 결과 T-모바일은 Riva로 구축하는 고품질 모델이 지연시간을 극도로 낮춰 우수한 고객 경험을 제공한다는 사실을 발견했습니다.”라고 말했죠.

지금 NGC Catalog에서 Riva 음성 서비스를 다운로드하고 전사(transcription) 애플리케이션의 구축을 시작하세요.

NeMo 1.0

NVIDIA NeMo는 최첨단(SOTA) 대화형 AI 모델을 개발하는 연구자를 위한 오픈소스 툴킷입니다. NeMo에는 자동 음성 인식(ASR), 자연어 처리(NLP), 문자 음성 변환 프로그램(TTS)용 컬렉션이 포함되어 있어, 모델을 새로 생성하거나 기존의 모델을 기반으로 구축할 때 새로운 SOTA 신경망들로 신속한 실험을 진행할 수 있습니다.

NeMo는 파이토치(PyTorch)를 비롯하여 파이토치 라이트닝(Lightning)과 히드라(Hydra) 프레임워크와 강력하게 통합됩니다. 이에 따라 연구자들은 NeMo모델과 모듈을 파이토치, 파이토치 라이트닝 모듈과 함께 개발하고 사용할 수 있습니다. 또한 히드라 프레임워크와 NeMo를 활용하여 복잡한 대화형 AI 모델을 간편하게 커스터마이징할 수 있습니다.

이번 버전에 포함된 주요 내용은 다음과 같습니다.

또한 NeMo 모델의 대부분은 NVIDIA Riva로 내보내기(export)하여 프로덕션 배포와 고성능 추론을 진행할 수 있습니다.

NVIDIA 개발자 블로그를 방문하고 NeMo 1.0에 대해 더 자세히 알아보세요. NeMo는 오픈소스로 제공되고 있으며, NGC Catalog깃허브(GitHub)에서 다운로드하여 사용할 수 있습니다.