온라인 회의 환경을 개선하는 NVIDIA AI

by NVIDIA Korea

마이크로소프트 팀즈(Microsoft Teams)는 온라인 회의에 참여하는 전세계 학생과 전문가에게 AI가 생성하는 실시간 자막(caption)과 전사(transcription)를 제공합니다. 이 기능들은 훈련을 위한 NVIDIA AI 컴퓨팅 테크놀로지와 음성 인식 모델의 추론을 위한 NVIDIA Triton Inference Server로 더욱 힘을 얻고 있죠.

마이크로소프트 팀즈는 매달 2억5천만 명에 육박하는 활성 사용자(active user)들의 소통과 협업을 지원하는데요. 팀즈의 대화 내용은 마이크로소프트 애저 코그니티브 서비스(Azure Cognitive Services)를 통해 28개 언어로 자막 처리, 전사됩니다. 이 프로세스는 곧 NVIDIA GPU상에서 중대하면서 컴퓨팅 집약적인 신경망 추론을 수행하게 될 예정입니다.

실시간 자막은 회의 참가자가 대화의 내용을 놓치지 않도록 지원하는 기능입니다. 전사의 경우, 훌륭한 아이디어를 나중에 다시 찾아보거나 불참한 회의의 내용을 따라잡는 데 도움이 되죠.

또한 실시간 자막은 청각에 문제가 있거나 회의에서 사용되는 언어가 모국어가 아닌 참가자에게 특히 유용할 수 있습니다.

팀즈는 코그니티브 서비스와 NVIDIA Triton 오픈 소스 추론용 소프트웨어를 사용해 음성 인식 모델을 최적화합니다.

Triton은 코그니티브 서비스가 고도로 진보된 형태의 언어 모델을 지원하게 해줍니다. 높은 정확도를 자랑하는 개인맞춤형 음성-문자 변환 결과를 실시간으로 제공하면서 지연 시간은 아주 낮게 유지하죠. Triton을 도입하면 고급 음성 문자 변환 모델을 실행하는 NVIDIA GPU가 역량을 최대치까지 발휘할 수 있게 되어 더 적은 연산 리소스로 더 많은 처리량을 제공하고 고객의 비용 부담을 줄입니다.

기본적인 음성 인식 테크놀로지는 코그니티브 서비스의 API로 제공됩니다. 이 API를 활용해 고객 서비스 통화의 전사, 스마트 홈 제어, 응급 의료 요원의 AI 어시스턴트용 애플리케이션들을 커스터마이징, 실행할 수 있습니다.

한 단어도 놓치지 않는 AI

팀즈의 코그니티브 서비스가 생성하는 전사와 자막은 음성을 문자로 변환할 뿐 아니라 각 진술의 화자를 식별하기도 합니다. 전문 용어와 성명 등 회의의 여러 맥락을 인식해 자막의 정확도를 개선하죠.

마이크로소프트 팀즈 콜링, 미팅 및 디바이스 총괄 PM 매니저인 샬런드라 차브라(Shalendra Chhabra)는 “이 같은 AI 모델은 매우 복잡합니다. 수십 종의 언어 전반에서 정확한 결과를 내려면 신경망 파라미터 수천만 개가 필요합니다. 하지만 모델의 규모가 커질수록 비용 대비 효율과 실시간 서비스를 동시에 잡기가 힘들어집니다”라고 말했습니다.

마이크로소프트는 NVIDIA GPU와 Triton 소프트웨어를 사용해 강력한 신경망으로 높은 정확도를 달성합니다. 이때 지연 시간은 낮은 상태로 유지되므로 음성과 문자의 변환은 여전히 실시간으로 스트리밍됩니다.

또한 전사를 활성화하면 회의 중에 놓친 자료를 이후에 확인하는 작업도 간편해집니다.

Triton의 효율성 강화 삼총사

NVIDIA Triton은 AI 모델의 배포를 간소화하고 고성능 추론을 실현합니다. 사용자는 자신의 애플리케이션에 맞는 커스텀 백엔드(backend)도 개발할 수 있죠. 마이크로소프트 팀즈의 자막과 전사 기능을 다수의 회의와 사용자에 맞춰 확장하도록 지원하는 Triton의 핵심 기능은 다음과 같습니다.

  • 스트리밍 추론: NVIDIA와 애저 코그니티브 서비스는 협업을 통해 음성 문자 변환 애플리케이션을 커스터마이징했습니다. 새롭게 추가된 상태 기반(stateful) 스트리밍 추론 기능은 이전 발화의 맥락을 추적해 지연 시간이 중요한 자막의 정확도를 개선합니다.
  • 동적 배칭(Dynamic batching): 배치 사이즈는 신경망이 동시에 처리하는 인풋 샘플의 개수를 의미합니다. Triton의 동적 배칭을 사용하면 단일 추론 요청들이 자동으로 결합해 하나의 배치를 형성하므로 모델의 지연 시간을 저해하는 일 없이 GPU 리소스의 활용도를 높일 수 있습니다.
  • 모델 동시 실행:실시간 자막과 전사를 위해서는 다중의 딥 러닝 모델을 동시에 실행해야 합니다. Triton은 서로 다른 딥 러닝 프레임워크를 사용하는 모델들도 단일 GPU상에서 동시에 실행될 수 있게 지원합니다.

애저 코그니티브 서비스로 여러분의 애플리케이션에 음성 문자 변환 기능을 더하세요. NVIDIA Triton Inference Server 소프트웨어가 AI 모델을 규모별로 확장하는 방법도 자세히 알아보세요.

아래에서 NVIDIA 창업자 겸 CEO젠슨 황(Jensen Huang)의 GTC 키노트 영상을 시청할 수 있습니다.