동아프리카의 한 스타트업은 이 지역을 휩쓰는 코로나 3차 대유행에 대한 정보를 얻기 위해 대화형 AI를 활용합니다. 이 기업은 자사의 엠바자 AI 챗봇(Mbaza AI Chatbot)이 동아프리카의 수많은 언어에 걸친 문제들을 해결하기 위해 이 기술을 활용하는 파트너십으로 이어지기를 바랍니다.
이 소프트웨어를 개발하는 스타트업인 디지털 우무간다(Digital Umuganda)의 설립자 겸 CEO인 오다스 니욘쿠루(Audace Niyonkuru)는 “안타깝지만 코로나는 계속 남아있을 것입니다. 그리고 매주마다 긴축하거나 완화하는 조치가 따르는 불안정한 사안이기 때문에 사람들이 최신 정보를 접하는 게 중요합니다”라고 말했습니다.
르완다의 수도 키갈리에 본부를 둔 그의 팀은 8월에 기본적인 음성 서비스를 구축하는 것을 목표로 했습니다. 또한 연말까지 구어로 전달되는 질문을 해석하고 답변할 수 있는 버전을 후속으로 제공할 예정이죠.
정보의 접근 장벽을 허무는 대화형 AI
약 1200만 인구 중에 75%만이 문해력을 갖춘 저개발국 르완다에서 오다스 니욘쿠루는 “이곳 사람들은 쓰는 것보다 말하는 것이 더 편하기 때문에 여전히 접근 장벽이 남아있는 구술 문화에 가깝습니다”라고 전했습니다.
이런 장벽은 2000개 이상의 언어와 방언이 존재하는 아프리카 전지역에서 볼 수 있는데요. 하지만 평생을 기업가로 살아온 오다스 니욘쿠루는 이러한 상황을 긍정적인 시각으로 보려고 합니다.
그는 “대화형 AI는 사람들이 휴대폰으로 모든 종류의 의료 정보나 법적 정보를 얻을 수 있도록 도우면서, 접근 장벽을 허무는 해결안이 되어 주기 때문에 전세계적으로 큰 기회를 가져올 수 있습니다”라고 말했죠.
커먼 보이스 플랫폼에서 대화형 AI 모델 훈련하기
대화형 AI 모델을 훈련시키려면 초대용량의 음성 샘플 데이터 세트가 필요한데요. 음성 샘플의 경우, 만드는 데 시간이 많이 걸리거나 구입하는 데 큰 비용이 들죠. 디지털 우무간다는 모질라(Mozilla)가 만들고 NVIDIA가 지원하는, 대중들이 무료로 이용할 수 있는 다국어 플랫폼과 데이터 세트인 모질라 커먼 보이스(Common Voice)에서 자사의 모델들을 훈련시켰습니다. 커먼 보이스 데이터 세트는 전 세계 수천 명의 기부자들의 기여를 통해 만들어졌습니다.
디지털 우무간다는 아프리카에서 이 플랫폼에 가장 크게 기여하고 있습니다. 이 기업은 현재까지 르완다와 그 주변국에서 4000만명이 사용하는 킨야르완다어의 2200시간 분량을 만들기 위해 기여자들을 조직했죠. 현재 킨야르완다어는 커먼 보이스에서 영어 다음으로 가장 큰 데이터 세트입니다.
이 데이터 세트를 만들기 위해 디지털 우무간다는 매달 마지막 토요일이면 주민들이 모여 지역사회 프로젝트를 수행하는 르완다의 전통을 활용했습니다. 우무간다라고 불리는 이 풍습을 수용하여 확장했던 것이죠.
오다스 니욘쿠루는 “오픈 소스 소프트웨어의 정신은 르완다 문화에도 내재되어 있습니다. 따라서 우리는 그런 문화를 디지털 세계와 데이터세트에 접목한 것뿐입니다”라고 말했습니다.
모두와 공유
디지털 우무간다는 대학교 학생들과 함께 모여 데이터를 수집하기 시작한 다음, 그 데이터 세트가 모든 연령대의 사람들을 대변하는지 확인하기 위해 시골지역으로 갔습니다.
오다스 니욘쿠루는 “커먼 보이스 플랫폼이 아름다운 이유는 이 플랫폼이 공개되어 있기 때문에 전세계 연구원들은 모두 함께 일하는 것을 볼 수 있다는 점입니다”라고 말했습니다.
르완다 정부의 두개의 부처는 디지털 우무간다 기술을 사용하는 데 관심을 표했습니다. 그리고 적어도 한 개 이상의 타기업이 이미 이 데이터 세트를 사용해 대화형 AI 모델을 만들었죠.
정보에 대한 요청 전화가 1만 건 넘게 정부 콜센터에 쇄도했던 지난 봄, 코로나 프로젝트가 시작됐는데요. 엠바자 챗봇은 연중 24시간 정보 서비스로 기존 정부 헬스케어 전화선에 배치될 예정입니다.
이런 사례는 커먼 보이스가 대화형 AI 기술을 개발하는 기업과 사용자들 모두를 위해 전세계적으로 대화형 AI 사용을 대중화시키는 단 하나의 예에 불과합니다.
더 많은 언어에 대한 음성 지원
2017년에 처음 출시된 커먼 보이스 데이터 세트는 1년에 두 차례씩 업데이트된 버전이 제공됩니다. 커먼 보이스는 사용 인구수가 적은 언어에 지원을 확대하는 데 초점을 맞추고 있으며, 보통 가장 대중화된 미국, 아시아, 유럽 언어에 초점을 맞춘 상업 음성 프로젝트가 다루지 못한 공백을 메우고 있습니다.
커먼 보이스에는 현재 자원봉사자들이 수집하고 검증한 10,000시간 이상의 녹음 음성 샘플이 있습니다. 이는 자체적으로 데이터 세트를 수집하거나 구매할 시간이나 자금력이 없는 신생 기업, 연구원, 중소 개발자들에게는 보물창고와 같죠.
7월 말에 나온 다음 버전은 75개 언어의 데이터를 제공하는데요. 그 중 15개의 언어는 커먼 보이스에서 처음 선보이는 것입니다. 여기에는 남아시아의 7000만 명이 사용하는 우르두어, 6000만 아프리카인의 언어인 하우사어, 아제르바이잔어, 아르메니아어, 세르비아어, 위구르어 등이 포함됩니다. 어느 언어도 주요 상업 AI 서비스의 지원을 받지 못하고 있는 실정이죠.
이번 신규 버전은 NVIDIA가 모질라의 파트너사가 되면서 대화형 AI를 모든 사람들이 공유하도록 커먼 보이스를 지원하게 된 2021년 4월 이후 처음 공개된 것입니다.
커먼 보이스에 기여하는 방법
NVIDIA Riva 프레임워크는 인터랙티브한 대화형 AI 서비스를 개발하는 최신 사전 훈련 딥 러닝 모델과 소프트웨어 도구를 제공하기 위해 만들어졌습니다. 이제 NVIDIA는 이 풍부한 개방 데이터 세트도 잘 활용될 수 있도록 지원하고 있습니다.
커먼 보이스에서 무료로 이용할 수 있는 데이터 세트의 음성 샘플에 데이터를 기여하거나 검증한다면, 모든 개발자가 모든 언어로 이 기술을 사용할 수 있도록 만드는 전세계적인 노력에 동참할 수 있습니다.
상단 사진: 디지털 우무간다의 공동 설립자 알리 니링가보(Ali Nyiringabo)(우측)는 키갈리에서 열린 행사에서 자원봉사자들과 함께 커먼 보이스의 샘플을 수집하고 검증합니다.