[GTC 2016] GPU로 단순화된 음성 인식 시스템 소식

by NVIDIA Korea

[GTC 2016] GPU로 단순화된 음성 인식 시스템 소식

여러분들은 아이폰 시리를 사용하시면서 신기하다고 느끼시지 않으셨나요? 기기가 음성을 인식하고 이해하는 음성 인식 기술은 오늘날까지 길고도 녹록지 않은 길을 걸어왔지만 현재는 핸드폰, 자동차, 컴퓨터 등 다방면에서 사용되고 있습니다.

그리고 카네기 멜론 대학과 구글 브레인의 연구팀 덕분에 더 빠르고 더 정확한 음성인식 방식으로 변화의 조짐이 보이고 있습니다. 카네기 멜론 대학의 박사 과정에 있는 윌리엄 찬(William Chan)은 이번 GTC 2016에서 “우리는 기존의 음성인식 방식(pipeline) 대신 이를 새로운 모델로 교체하고자 하였습니다.”라고 이야기하며 두 팀의 연구원들이 음성 인식에 대한 새로운 접근을 시도했다고 말했습니다.

음성 인식 시스템의 직관적인 단순화

거의 모든 음성 인식 애플리케이션이 음성을 문자화 하는 데에는 복잡한 다단구조(Multi-step) 과정을 거칩니다. 윌리엄 찬은 자신이 주요 필자로 참여한 저널을 통해 음성 인식 애플리케이션은 전문가들이 만든 각각의 음가를 구별하는 발음 사전을 필요로 한다고 발표하였습니다.

대부분의 모든 음성 인식 어플리케이션이 언어를 이해하기 위해 뉴럴 네트워크를 훈련시키는 딥 러닝(Deep Learning)을 사용하는 반면, 카네기 멜론 대학과 구글 브레인 팀은 딥 러닝 구조에서 더 한 단계 더 나아가 전문가들이 만든 발음 사전을 기반으로 하는 시스템을 제거함으로써 근본적인 변화를 꾀했습니다. 다시 말하면, 중간매개체인 발음사전을 제거함으로써 직접적인 연결을 꾀한 것이지요.

또한 윌리엄 찬은 “우리의 모델은 완전하게 데이터를 기반으로 합니다. 즉, 음향(음성)에서 직접적으로 학습을 하는 것이죠.”라며 지금은 사람이 만든 자료를 기반으로 하여 소리에서부터 언어로 바꾸는 것을 학습하지만 충분히 훈련이 되면, 스스로 음성을 언어로 바꾸는 것이 가능하다고 설명했습니다.

이 모델은 현존하는 최고의 음성 인식 시스템과 동일하거나 그 이상의 성능을 보여줄 수 있는데요, 무거운 데이터 요소들을 필요로 하지 않기 때문에 모바일 환경에 더 적합하다고 합니다.

새로운 음성 인식 시스템의 궁극적인 목표는 소리들을 문자나 언어로 바로 변환하는 것입니다. 이는 매우 단순하고 직관적인 모델이라고 할 수 있지요.

한국어의 경우 대부분의 기기에서 음성인식률이 많이 떨어지는 것이 사실입니다. 하지만 이와 같은 모델이 스스로 학습하는 과정을 거친다면 곧 100%의 인식률을 달성할 수 있지 않을까요? 때론 단순하고 직관적인 방식이 가장 효율적인 접근일 수 있습니다.

과연 음성 인식 시스템의 끝은 어디일까요? 지금까지도 먼 길을 걸어오고 발전되는 모습을 보여준 음성인식 시스템, 앞으로도 어떠한 방향으로 발전될지 궁금해집니다^^