인도 남부의 주언어인 텔루구(Telugu)어는 현재 7,500만 이상의 인구가 사용하며, 인도에서 가장 많이 쓰이는 언어의 하나로 손꼽힙니다.
이처럼 널리 쓰이지만 음성 AI 분야로 넘어오면 리소스 부족 언어로 간주되는데요. 텔루구어 자동 음성 인식(ASR)용 AI 모델을 편리하고 정확하게 생성할 수 있을 정도의 음성 데이트세트가 부족한 상태이기 때문입니다.
그리고 이는 텔루구어와 기타 리소스 부족 언어의 전사(transcription)와 번역, 추가적인 음성 AI 애플리케이션을 ASR로 개선하는 작업에서 수십억 인구가 배제되고 있음을 의미하기도 합니다.
NVIDIA 음성 AI 팀은 최첨단 대화형 AI 모델의 개발과 훈련을 지원하는 NVIDIA NeMo 프레임워크를 기반으로 텔루구어 ASR 모델을 구축했습니다. 이 모델은 연구 기관이자 명문대로 높은 권위를 자랑하는 인도 공대 하이데라바드 캠퍼스(IIIT-Hyderabad)가 지난 10월에 개최한 대회에서 1위를 차지했습니다.
NVIDIA는 인도 전자정보기술국(Ministry of Electronics and Information Technology) 인도어 번역 사업의 일환으로 ‘인도어 테크놀로지 개발(Technology Development for Indian Languages)’ 프로그램과 협력 하에 개최된 텔루구어 ASR 챌린지(Telugu ASR Challenge)의 2개 경쟁 부문 모두에서 정확도 1위를 기록했습니다.
제한 경쟁 부문의 경우, 참가자들은 대회 주최측이 제공한 2,000시간 분량의 텔루구어 전용 훈련 데이터세트를 사용해 텔루구어 ASR 모델을 구축해야 했습니다. 자유 경쟁 부문에서는 데이터세트와 사전 훈련된 AI 모델을 자유롭게 활용했죠.
NVIDIA NeMo 기반 모델들은 제한 경쟁과 자유 경쟁에서 각각 13%와 12%의 단어 오류율(WER)로 ESP넷(ESPnet)과 칼디(Kaldi), 스피치브레인(SpeechBrain) 등의 유명 ASR 프레임워크 기반 모델 전부를 크게 앞서며 리더보드 1등에 올랐습니다.
NVIDIA 대화형 AI팀의 니딘 콜루구리(Nithin Koluguri) 수석 연구원은 “NVIDIA NeMo는 보유 모델을 오픈 소스화 한다는 점에서 차별화됩니다. 이 덕분에 다른 모델들을 간편하게 미세 조정하고, 각자의 활용 사례에 맞춰 전이 학습(transfer learning)을 수행할 수 있습니다”라고 말합니다. “NeMo는 또한 툴킷으로서는 유일하게 멀티 GPU 시스템과 멀티 노드 클러스터로의 스케일링 훈련을 지원합니다.”
텔루구어 ASR 모델 구축하기
1위 수상의 영예를 안은 이 모델의 구축은 데이터 전처리와 함께 시작됐습니다.
콜루구리와 메그 마크와나(Megh Makwana) NVIDIA 응용 딥 러닝 솔루션 아키텍트 매니저는 대회의 제한 경쟁 부문용으로 제공된 음성 데이터세트에서 무효한 문자와 구두점들을 제거했습니다.
콜루구리는 이 챌린지의 가장 큰 과제가 “잡음 섞인 데이터”였다고 말합니다. “다시 말해, 전사된 내용이 오디오와 일치하지 않는 문제가 있었습니다. 이렇게 되면 훈련 중인 기초 전사본의 정확성을 확신할 수 없습니다.”
작업팀은 정리를 위해 오디오 클립을 20초 미만으로 분할했습니다. 1초 미만의 클립들을 잘라내고, 초당 발화된 문자의 개수를 나타내는 문자 전송 속도가 30을 상회하는 문장들을 제거했습니다.
다음으로 NeMo를 활용해 1억 2,000만 개의 파라미터를 가진 ASR 모델을 160에포크(epoch)로 훈련했습니다.
자유 경쟁 부문에서는 인도의 40개 공용어를 대상으로 수집된 36,000시간 분량의 데이터로 사전 훈련한 모델을 활용했습니다. 마크와나에 따르면 이 모델을 텔루구어에 맞춰 미세 조정하기까지 NVIDIA DGX 시스템으로 약 사흘이 소요됐습니다.
이렇게 얻은 추론 테스트의 결과를 대회 주최측에 전달했습니다. NVIDIA는 2위를 차지한 참가자보다 2%가량 개선된 단어 오류율로 우승했습니다. 콜루구리는 이 2%의 차이가 음성 AI 분야에서는 굉장한 기록이라고 설명합니다.
“리소스 부족 언어의 경우 ASR 모델의 개발에 따른 효과가 특히 지대합니다. 이번 대회에서 우리가 그랬듯 기업이 나서서 기준 모델을 설정하고, 거기에 다른 사용자들이 전사와 번역 등의 ASR 애플리케이션을 NeMo 툴킷으로 더하면 음성 AI 미보급 지역 언어의 접근성을 개선할 수 있습니다.”
리소스 부족 언어를 위해 음성 AI 확장하는 NVIDIA
마크와나는 “ASR이 특히 인도에서 크게 주목받는 건 음성 지원 서비스를 통해 디지털 플랫폼들이 수십억 사용자와 함께할 기회를 모색할 수 있기 때문”이라고 진단합니다.
앞서 설명한 텔루구어 모델의 구축 프로세스는 또한 다른 모든 언어에도 적용할 수 있는 기법입니다.
전 세계 7,000개 언어의 90%가 음성 AI를 구축하기에는 리소스가 부족한 것으로 알려져 있습니다. 이에 해당하는 언어의 사용자만 30억 명에 달하죠. 이나마도 방언이나 피진어(토착 언어와 결합한 타 언어), 어조는 고려 대상에서 제외한 수치입니다.
NVIDIA가 NeMo 툴킷의 자사 모델 일체를 오픈 소스화 하는 건 음성 AI가 더 많은 언어를 아우를 수 있게 하려는 노력의 일환입니다.
이와 더불어 NVIDIA Riva 소프트웨어 개발 키트에는 10개 언어로 사전 훈련된 AI 모델이 포함돼 있으며, 여러 언어를 지속적으로 추가해 나갈 계획입니다.
지난 11월에 NVIDIA는 구글(Google)과 메타(Meta), 모질라 커먼 보이스(Mozilla Common Voice) 등의 연사들이 참여한 ‘음성 AI 서밋(Speech AI Summit)’을 처음으로 개최했습니다. ‘글로벌 언어 사용자를 위한 음성 AI 테크놀로지 제공하기(Unlocking Speech AI Technology for Global Language Users)’를 온디맨드로 시청하세요.
NVIDIA NeMo로 최첨단 대화형 AI 모델을 구축, 훈련하세요.