마이크로소프트, 음성 인식 분야에서 세계 기록을 수립하다

마이크로소프트, 음성 인식 분야에서 세계 기록을 수립하다

마이크로소프트 연구진이 음성 인식 분야에서 세계 기록을 수립했습니다. 마이크로소프트 코그니티브 툴킷(Cognitive Toolkit) 및 GPU 가속 딥 러닝 기술을 통해 인간과 동등한 수준으로 대화 속 언어를 인식하는 기술을 개발한 결과입니다.

마이크로소프트 연구진은 기계 표기 결과로는 가장 낮은 수치인 오류율 5.9%를 달성했는데요. 이는 인간이 대화를 듣고 기록할 때와 거의 같은 수준의 정확도이기도 합니다. 불과 한달 전에 자신이 세운 기록에서 정확도를 6%나 개선시킨 결과이기도 하죠.

10월 17일 발표된 논문의 공동저자인 쉐동 황(Xuedong Huang) 마이크로소프트 수석 음성 과학자는 “이번 개발은 (음성 인식이) 인간과 같은 수준에 도달했음을 뜻하는 역사적인 성과입니다”고 의의를 설명했습니다.

인간의 잡담, 컴퓨터에게는 난관

제프리 츠바이그(Geoffrey Zweig) 마이크로소프트 음성 및 대화 연구팀장은 “대화 음성은 음성 인식에서 가장 큰 걸림돌 중 하나”라고 말합니다.

그는“사람들이 격식 없는 대화를 하거나, 감정이 고조되거나, 실수를 해서 다시 고쳐 말할 때, 화제를 전환할 때 음성 인식은 어려워집니다. 이 모든 것들이 바로 대화 음성의 특징이지요”라고 설명했다.

연구진은 획기적인 대화 음성 인식 성과를 딥 러닝, 특히 CNN(Convolutional Neural Network) 및 RNN(Recurrent Neural Network)의 체계적인 사용에 공을 돌립니다. 연구진은 최근 연구에서 LSTM(Long Short-Term Memory)라는 RNN을 랭귀지 모델에 적용했습니다.

LSTM 네트워크는 정보를 보다 장기간 ‘기억’해서 보통의 뉴럴 네트워크 랭귀지 모델보다 더 많은 수의 단어에 민감하다는 장점이 있습니다.

강력한 GPU = 더 빠른 진보

엔비디아 GPU와 마이크로소프트의 오픈소스 딥 러닝 프레임워크인 코그니티브 툴킷(Cognitive Toolkit, 구 CNTK)은 대화 음성 인식을 인간과 같은 수준으로 끌어올린 주역입니다. 마이크로소프트가 10월 25일 발표한 코그니티브 툴킷은 딥 러닝 시스템으로 음성/이미지 인식 및 GPU의 검색 관련성 등 부문의 발전을 가속화시킬 전망입니다.

이러한 업적에 대해 츠바이그는“GPU의 계산 능력이 없었다면 불가능했던 일입니다”고 평했습니다.

츠바이그는 엔비디아의 Tesla M40 GPUs 덕분에 일부 랭귀지 모델의 트레이닝 시간이 이전에 수개월 걸리던 것에서 몇 주로 단축되었다고 말합니다. 그는 “트레이닝 시간의 단축은 중요한 차이점을 만들어냅니다. 얼마나 많은 실험을 할 수 있는 지가 발전의 속도를 좌우하니까요”라고 덧붙였습니다.

파티장에서의 음성 인식

파티장, 길거리 등 실제 상황에서는 음악, 교통소음, 대화소리 등 배경 잡음 때문에 음성 인식률이 떨어지기 때문에 아직 더 많은 연구가 필요합니다. 연구진은 여러 사람이 각각 마이크로부터 다른 거리에 위치한 회의장에서의 대화 음성 인식도 개선시키고 있습니다.

츠바이그는 이번 연구 성과는 마이크로소프트가 디지털 비서 서비스 코타나(Cortana), Xbox 게임 콘솔 등 여러 제품에서 보다 뛰어난 차세대 음성인식 기술을 신속하게 디플로이(deploy)할 수 있는 툴을 가지고 있다는 것을 의미한다고 말합니다.

그들의 장기적인 연구 목표는 음성 인식에서 더 나아가 음성 이해가 될 것이라고 합니다. 이제 기기가 우리의 질문에 답하거나, 지시를 듣고 수행하는 날이 멀지 않은 것 같습니다.

AI의 다음 기점에 대해 더 알고 싶으신가요? 엔비디아 CEO 젠슨 황(Jen Hsun Huang)의 기고문인 엔비디아, 전세계 GTC 통해 AI 산업혁명의 현주소 확인하다를 읽어 보세요.