우리는 때로 중요한 컨퍼런스나 논문 발표 자리에서 조금 더 정확하고 부드럽게 의견을 전달하기 위해 노력합니다. 그것이 모국어가 아닌 경우에는 더 많은 노력이 필요하고 때로는 필요 이상으로 긴장하게 돼 내용 전달이 제대로 되지 않는 경우도 있습니다.
그렇다면 사람들의 음성에서 정보를 추출해 의견을 보다 효과적으로 커뮤니케이션 할 수 있다면 어떨까요? 인공 지능의 힘을 통해 음성(Voice) 혹은 언어의 장벽 없이 자유롭게 의사소통 할 수 있는 세상을 만들기 위해 전념하는 한국의 스타트업 Orbis.ai를 소개합니다!
인공지능을 통한 음성합성 기술로 의사소통 장벽 해소
글자를 음성으로 바꾸는 것을 ‘음성 생성’이라고 합니다. Orbis.ai가 개발하고 있는 기술은 ‘음성 합성’이라는 기술로, 음성에서 정보를 추출하여 또 다른 음성 특징(Identity)를 보유할 수 있도록 하는 기술인데요,
대표적인 예로, 해외에 있는 쇼핑몰에서 물건을 구매한 후 콜센터와 연결 시 서로 다른 억양으로 인해 (영어) 의사 소통에 어려움을 겪고 낮은 만족도를 얻게 됩니다. 또한 다른 지역의 직원들과 협업을 위한 컨퍼런스 콜 진행 시에도 억양이 다른 사람들 간의 의사 소통이 어려운 경우가 종종 발생하는데요. Orbis ai는 이러한 장벽을 해소하는 기술 개발에 전념하고 있는 인공지능 스타트업입니다.
실시간 음성 변환 기술 ‘LOVO’의 탄생
Orbis.ai는 인공 지능과 딥 러닝을 사용해 ‘LOVO’라는 실시간 음성 변환 기술을 만들었습니다. LOVO는 말하는 사람의 음성 특징을 듣는 사람에게 익숙한 다른 음성 특징으로 변환하는데요, 우리가 정의하는 음성 특성(음성 신원, Vocal Identity)은 영어 억양, 음색, 말하는 속도 및 음색을 포함하고 있답니다.
LOVO가 세상에 나오기까지 orbis.ai 의 모든 팀원들이 각 노력을 했는데요, 최우용 대표는 초기 아이디어와 로드맵을 제시했고, 머신러닝 팀은 그런 아이디어를 현실화하고 있습니다. 또한 제품 팀은 R&D를 지원을 위한 우수한 데이터 공급에 노력을 기울이고 있죠.
빠르게 성장하는 음성 기술 영역, 데이터 처리 속도가 관건
Orbis.ai의 최우용 대표는 텍스트 음성 기술이 최근 급속도로 발전하면서 컴퓨터가 사람처럼 자연스럽게 말할 수 있게 됐다고 합니다.
“비디오가 지배하고 있는 콘텐츠 시장에서 오디오 콘텐츠는 독자적인 방식으로 폭발적인 성장을 보이고 있습니다. 일례로 온라인 검색의 약 20%는 Google Now나 Alex와 같은 음성기반 디지털 어시스턴트를 통해 이루어집니다. 뿐만 아니라 평균적으로 4 명의 미국인 중 1 명은 적어도 한 달에 한 번 팟캐스트를 청취하고 있고, 음성을 중심으로 하는 소셜미디어가 증가하고 있습니다. 게이머들을 위한 Discord같은 음성 통신 플랫폼은 기하급수적으로 늘어나고 있는 등 음성을 기반으로 하는 영역에 대한 관심이 커지고 있습니다. “
Orbis.ai는 커져가는 음성 기술 시장에서 그들의 기술을 빨리 선보이기 위해 노력했습니다. GPU 리소스에 대한 액세스가 제한되기 전에는 한 두개 모델만을 테스트할 수 있었고 이로 인해 R&D 속도가 늦어졌습니다. 그러나 새롭게 도입한 DGX Station을 통해 Iteration time이 5~7배 증가했으며 이제는 원하는 만큼 많은 모델을 시험해 볼 수 있게 됐습니다.
그 결과, 최첨단 딥러닝 기술을 통해 Tesla V100 GPU에서 실시간보다 최대 40배 빠른 변환 속도, 변환 정확도(단어 오류율 10% 미만), 4.1의 변환 음질 MOS (Mean Opinion Score)를 달성할 수 있었습니다.
이들은 보다 많은 데이터를 수집하고 모델을 개선하여 실시간 음성 변환 기술의 세 가지 측면(속도, 정확도, 음질)을 지속적으로 개선하기 위해 노력하고 있습니다.
LOVO의 효과와 Orbis.ai의 목표
Orbis.ai의 솔루션으로 두 가지 놀라운 일이 일어났습니다. 첫째, 영어가 외국어인 화자들이 그들의 생각을 더 정확하고 편안하게 그리고 자신 있게 전달할 수 있게 됐습니다. 둘째, 청자는 화자의 말을 훨씬 명확하고 정확하게 이해할 수 있었습니다. 무엇보다 청자의 이해도가 높아져 화자가 훨씬 더 설득력 있다고 생각하게 됐습니다.
이 솔루션이 원어민이 아닌 이들을 위한 것이라고 생각할 수 있습니다. 하지만 이 음성 합성 솔루션은 영어를 모국어로 하는 원어민에게도 적용된답니다. 예를 들어, 원어민의 음성 특징이 더 느린 속도의 Konglish (한국어+영어)로 변경되면 한국인 청취자는 원어민 강사를 더 잘 이해하는 경향을 보였다고 하네요.
Orbis.ai가 목표로 하는 시장 중 하나는 콜센터 아웃소싱 시장입니다. 콜센터 아웃소싱은 기업에게 저렴한 비용과 유연한 가용성 덕분에 항상 매력적인 옵션이었습니다. 그러나 가장 큰 문제는 영어 억양 차이로 인해 발생하는 의사소통 문제 때문에 고객 만족도가 감소하는 것이었습니다.
최우용 대표는 “우리의 솔루션을 사용하여 최대 20% 높은 고객 만족도를 달성할 수 있습니다.” 라는 솔루션에 대한 자신감을 표시했습니다. 마지막으로, “전화로 모건 프리먼에게 인터넷 청구서에 관해 이야기하는 것을 상상해보세요” 라며 Orbis.ai가 만들어갈 솔루션의 미래에 대해서도 흥미롭게 표현했답니다.
세계적으로 음성 합성 기술 상용화에 성공한 기업은 소수에 불과합니다. 그 중 우리나라의 스타트업인 Orbis.ai가 보다 적극적이고 신속한 기술 개발을 통해 더욱 높은 품질의 음성 전환 솔루션을 제공하기 위해 노력하고 있는데요. 언어의 장벽에 가로막히지 않고 누구나 아이디어를 마음껏 펼칠 수 있는 미래, 어느 국가에서나 최상의 고객 서비스를 제공할 수 있는 미래를 만들어갈 Orbis.ai의 앞으로 행보가 더욱 기대됩니다.